Autor |
Goldschmidt, Guilherme; |
Lattes do autor |
http://lattes.cnpq.br/0727691512191654; |
Orientador |
Righi, Rodrigo da Rosa; |
Lattes do orientador |
http://lattes.cnpq.br/2332604239081900; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
pt_BR; |
Título |
Arterial: um modelo inteligente para a prevenção ao vazamento de informações de prontuários eletrônicos utilizando processamento de linguagem natural; |
Resumo |
Na última década, houve um aumento constante de violações de segurança na área de saúde. Um estudo sobre privacidade de pacientes e segurança de dados mostrou que 94% dos hospitais tiveram pelo menos uma violação de segurança nos últimos dois anos. Na maioria dos casos, os ataques tiveram origem por parte de atores internos. Dessa forma, é essencial que as organizações de saúde protejam suas informações sensíveis como, resultados de exames, diagnósticos, prescrições, pesquisas e informações pessoais de clientes. Um vazamento de dados sensíveis pode resultar em uma grande perda econômica e ou dano à imagem da organização. Há no Brasil ainda a Lei Geral de Proteção de Dados Pessoais (LGPD), que dispõem sobre diversos aspectos da proteção pessoal de informações. Sistemas para a proteção da informação foram se concretizando ao longo dos últimos anos, como firewalls, intrusion detection and prevention systems (IDS/IPS) e virtual private networks. No entanto, essas tecnologias funcionam muito bem em dados bem definidos, estruturados e constantes, diferente do que são os prontuários médicos que possuem campos de escrita livre. Para complementar essas tecnologias há os sistemas de prevenção ao vazamento de dados, denominados Data Leakage Prevention Systems (DLPS). Sistemas de DLP ajudam a identificar, monitorar, proteger e reduzir os riscos de vazamento de dados sensíveis. No entanto as soluções convencionais de DLP utilizam apenas comparações por assinatura e ou comparação estática. Dessa forma, propomos desenvolver um modelo com base em novas tecnologias como Processamento de Linguagem Natural (PLN), Reconhecimento de Entidades (NER) e Redes Neurais Artificiais (RNA) com o objetivo de ser mais assertivo na extração de informação e no reconhecimento de entidades. Contribuindo assim com novas perspectivas à literatura e por conseguinte à comunidade cientifica. Foram implementadas e testadas três abordagens, duas a partir de RNA e a seguinte com base em algoritmos de aprendizado de máquina. Como resultado, a abordagem que teve em sua implementação a utilização de algoritmo de aprendizado de máquina atingiu 98.0% de Precisão, 86.0% de Recall e 91.0% de F1-Score.; |
Abstract |
Over the past decade, there has been a steady increase in healthcare security breaches. A study on patient privacy and data security showed that 94% of hospitals had at least one security breach in the past two years. In most cases, the attacks originated from internal actors. Therefore, it is essential that healthcare organizations protect their sensitive information such as test results, diagnoses, prescriptions, surveys, and personal customer information. A leak of sensitive data can result in a great economic loss and/or damage to the organization’s image. There is also in Brazil the General Law for the Protection of Personal Data (LGPD), which provides for various aspects of the personal protection of information. Information protection systems have been taking shape over the last few years, such as firewalls, intrusion detection and prevention systems (IDS/IPS) and virtual private networks (VPN). However, these technologies work very well on well-defined, structured and constant data, unlike medical records that have free writing fields. Complementing these technologies are Data Leakage Prevention Systems (DLPS). DLP systems help to identify, monitor, protect and reduce the risk of leaking sensitive data. However, conventional DLP solutions use only subscription comparisons and/or static comparisons. Thus, we propose to develop a model based on new technologies such as Natural Language Processing (NLP), Entity Recognition (NER) and Artificial Neural Networks (ANN) to be more assertive in extracting information and recognizing entities. Thus contributing with new perspectives to literature and therefore to the scientific community. Three approaches were implemented and tested, two based on ANN and the next based on machine learning algorithms. As a result, the approach that took in its implementation the use of machine learning algorithm reached 98.0% of Accuracy, 86.0% of Recall and 91.0% of F1-Score. Keywords: Electronic Health Record; |
Palavras-chave |
Prontuários médicos eletrônicos; Prevenção ao vazamento de informação; Processamento de linguagem natural; Electronic health record; Data leakage prevention; Natural language processing; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Dissertação; |
Data de defesa |
2021-12-21; |
Agência de fomento |
CNPQ – Conselho Nacional de Desenvolvimento Científico e Tecnológico; |
Direitos de acesso |
openAccess; |
URI |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/10900; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |