Autor |
Ignaczak, Luciano; |
Lattes do autor |
http://lattes.cnpq.br/9627212305197628; |
Orientador |
Costa, Cristiano André da; |
Lattes do orientador |
http://lattes.cnpq.br/9637121030877187; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
pt_BR; |
Título |
A value-based approach for information classification; |
Resumo |
A transformação digital está modificando a forma como produtos e serviços são produzidos e negociados no ambiente virtual. Esta mudança tornou as informações mais valiosas às organizações e ampliou a importância de protegê-las. No entanto, um desafio enfrentado pela área de segurança da informação é identificar as informações que necessitam de proteção, pois equipes e orçamentos de segurança da informação possuem limitações. Além disso, organizações possuem informações que não necessitam de proteção. A classificação da informação é o processo responsável por distinguir o nível de sensibilidade de uma informação para uma organização. O processo também é responsável pela atribuição de um rótulo à informação para registrar o nível de sensibilidade. Apesar da classificação da informação não ser um tópico de pesquisa recente, sua aplicação no mundo real enfrenta desafios devido à dependência de pessoas na definição do nível de sensibilidade de uma informação. Para superar estes desafios, pesquisas avaliaram a aplicação de tarefas de processamento de linguagem natural para automatizar o processo de classificação da informação. A principal abordagem analisada nas pesquisas é baseada no uso de aprendizado supervisionado, a qual também enfrenta dificuldades para implementação em uma organização. O esforço para anotação dos dados e a falta de flexibilidade para realizar ajustes no esquema de classificação da informação são dois exemplos de dificuldades enfrentadas. Este estudo propõe um novo modelo para classificação da informação baseado no valor da informação. Embora esta abordagem seja usada em pesquisas relacionadas à segurança da informação, não há conhecimento da sua aplicação para classificar o nível de sensibilidade de um documento. O modelo proposto estima o valor da informação baseado em duas perspectivas: (i) o valor dos dados pessoais, considerando as leis e regulamentações atuais; (ii) o valor da informação baseado no contexto organizacional. O modelo proposto aplica extração de informações e modelagem de tópicos para obter características textuais de um documento e um modelo de regressão para estimar o valor da informação. O modelo proposto foi avaliado a partir do desenho de três experimentos. O primeiro experimento avaliou a performance de duas abordagens para o reconhecimento de entidades mencionadas e uma técnica para extração de relações para a identificação de dados pessoais e dados pessoais sensíveis. O trabalho também
implementou um experimento para avaliar a abordagem de sacola de palavras para classificar documentos relacionados com quatro departamentos de uma organização. O terceiro experimento avaliou o modelo com base em seis cenários experimentais compreendendo esquemas para classificação da informação com três, quatro e cinco níveis. A implementação do modelo proposto usando árvores de regressão alcançou uma acurácia superior a 80% em todos os cenários avaliados. O estudo também apresentou que o modelo BERT obteve uma performance superior a uma rede neural LSTM na descoberta de entidades relacionadas com dados pessoais. Por fim, o estudo demonstrou que a implementação de um modelo para extração de tópicos específico para cada setor é viável, pois a tarefa de classificação de texto atingiu uma acurácia que não impacta significativamente no modelo de classificação da informação.; |
Abstract |
The digital transformation has revamped how products and services are produced and traded in the digital world. This innovation, bolstered by emerging technologies and evolving business models, underscores the growing importance of information to organizations and amplifies the significance of protecting it. However, a current challenge faced by information security teams is identifying which information requires safeguarding. Today, securing all information collected and produced by an organization is complex due to several limitations, such as budget constraints and understaffed security teams. Furthermore, organizations hold much information that does not require protection. Information classification is the cornerstone process to deal with this challenge in an organization. This process distinguishes confidential from non-confidential information and defines different sensitivity levels. Information classification is a previously introduced research topic, but its real-world application encounters several difficulties due to its manual nature. In order to overcome real-world barriers, scientific research has evaluated the application of natural language processing to automate the process. Most scientific studies proposed supervised learning approaches, which also present drawbacks, such as the significant effort to annotate sensitive labels and the limited flexibility for changes in the information classification scheme. Thus, this study proposes a new information classification model based on the information value. To the best of our knowledge, this is the first attempt to estimate the information value using textual features in the information classification context. The model assesses document value from two perspectives: (i) personal information associated with laws and regulations and (ii) confidential information related to the organizational context. The model applies information extraction and topic modeling to acquire document features and a regression model to estimate information value. We evaluated the proposed model by designing three experiments. The first experiment assessed the performance of two named entity recognition approaches and a
relation extraction technique for identifying personal and sensitive personal data. We also
implemented an experiment to evaluate the bag-of-words approach to classify documents into four departments. The third experiment assessed the model implementation using a corpus comprising 197 documents from an organization related to the educational sector. The proposed model evaluation implemented six experimental scenarios comprising three, four, and five-level information classification schemes. The model implementation using a Decision Tree regressor achieved an accuracy higher than 80% in the six scenarios. The study also presented that the BERT model outcome LSTM neural network in discovering personal data entities. Finally, the study demonstrated the feasibility of implementing a specific model to extract topics from each organization department since the text classification task achieved an accuracy that did not significantly impact the proposed information classification model.; |
Palavras-chave |
Classificação da informação; Segurança da informação; Mineração de texto; Processamento de Linguagem Natural; Valor da informação; Information classification; Information security; Text mining; Natural Language Processing; Information value; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Tese; |
Data de defesa |
2024-04-18; |
Agência de fomento |
Nenhuma; |
Direitos de acesso |
openAccess; |
URI |
http://repositorio.jesuita.org.br/handle/UNISINOS/13146; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |