Resumen:
A transformação digital está modificando a forma como produtos e serviços são produzidos e negociados no ambiente virtual. Esta mudança tornou as informações mais valiosas às organizações e ampliou a importância de protegê-las. No entanto, um desafio enfrentado pela área de segurança da informação é identificar as informações que necessitam de proteção, pois equipes e orçamentos de segurança da informação possuem limitações. Além disso, organizações possuem informações que não necessitam de proteção. A classificação da informação é o processo responsável por distinguir o nível de sensibilidade de uma informação para uma organização. O processo também é responsável pela atribuição de um rótulo à informação para registrar o nível de sensibilidade. Apesar da classificação da informação não ser um tópico de pesquisa recente, sua aplicação no mundo real enfrenta desafios devido à dependência de pessoas na definição do nível de sensibilidade de uma informação. Para superar estes desafios, pesquisas avaliaram a aplicação de tarefas de processamento de linguagem natural para automatizar o processo de classificação da informação. A principal abordagem analisada nas pesquisas é baseada no uso de aprendizado supervisionado, a qual também enfrenta dificuldades para implementação em uma organização. O esforço para anotação dos dados e a falta de flexibilidade para realizar ajustes no esquema de classificação da informação são dois exemplos de dificuldades enfrentadas. Este estudo propõe um novo modelo para classificação da informação baseado no valor da informação. Embora esta abordagem seja usada em pesquisas relacionadas à segurança da informação, não há conhecimento da sua aplicação para classificar o nível de sensibilidade de um documento. O modelo proposto estima o valor da informação baseado em duas perspectivas: (i) o valor dos dados pessoais, considerando as leis e regulamentações atuais; (ii) o valor da informação baseado no contexto organizacional. O modelo proposto aplica extração de informações e modelagem de tópicos para obter características textuais de um documento e um modelo de regressão para estimar o valor da informação. O modelo proposto foi avaliado a partir do desenho de três experimentos. O primeiro experimento avaliou a performance de duas abordagens para o reconhecimento de entidades mencionadas e uma técnica para extração de relações para a identificação de dados pessoais e dados pessoais sensíveis. O trabalho também
implementou um experimento para avaliar a abordagem de sacola de palavras para classificar documentos relacionados com quatro departamentos de uma organização. O terceiro experimento avaliou o modelo com base em seis cenários experimentais compreendendo esquemas para classificação da informação com três, quatro e cinco níveis. A implementação do modelo proposto usando árvores de regressão alcançou uma acurácia superior a 80% em todos os cenários avaliados. O estudo também apresentou que o modelo BERT obteve uma performance superior a uma rede neural LSTM na descoberta de entidades relacionadas com dados pessoais. Por fim, o estudo demonstrou que a implementação de um modelo para extração de tópicos específico para cada setor é viável, pois a tarefa de classificação de texto atingiu uma acurácia que não impacta significativamente no modelo de classificação da informação.