RDBU| Repositório Digital da Biblioteca da Unisinos

Reconhecimento de entidades nomeadas e extração de relações de registros de prontuários médicos para população de ontologia

Mostrar registro simples

Autor Silva, Diego Pinheiro da;
Lattes do autor http://lattes.cnpq.br/4943548858140690;
Orientador Rigo, Sandro José;
Lattes do orientador http://lattes.cnpq.br/3914159735707328;
Co-orientador Vieira, Renata;
Instituição Universidade do Vale do Rio dos Sinos;
Sigla da instituição Unisinos;
País da instituição Brasil;
Instituto/Departamento Escola Politécnica;
Idioma pt_BR;
Título Reconhecimento de entidades nomeadas e extração de relações de registros de prontuários médicos para população de ontologia;
Resumo Existe um grande aumento do número de Electronic Health Records (EHRs) que acomodam dados não estruturados, tais como textos e observações em linguagem natural. Consequentemente, cresce o interesse em utilizar tais dados para promover melhorias na saúde. A análise manual desses dados não é viável, devido ao grande volume existente, cuja tendência é o aumento contínuo. Sendo assim, há necessidade de uma abordagem que possibilite que essas informações sejam automaticamente estruturadas para que possam auxiliar profissionais da saúde na análise de dados, recomendação de tratamentos, diagnósticos de doenças, entre outros. Uma avaliação da literatura na área permitiu identificar demandas para o tratamento deste problema na língua portuguesa, bem como a existência de um número ainda reduzido de trabalhos com dados reais da área de saúde. Também foi identificado como oportunidade de pesquisa a utilização de recursos baseados na arquitetura Transformers e uso dos resultados para a estruturação de dados em ontologias. Neste contexto, este trabalho tem como objetivo o desenvolvimento de um modelo para o processamento de dados não estruturados de EHRs para apoiar a atividade de atualização de uma ontologia. As contribuições dessa pesquisa estão presentes em dois aspectos relacionados. Um deles situa-se no apoio ao desenvolvimento de aplicações em sistemas EHR para oncologia, através da ampliação da capacidade desses sistemas para o uso dos dados não estruturados. O segundo aspecto de contribuição está relacionado com a experimentação e proposta de avanços na computação em abordagens para reconhecimento de entidades e extração de relações, bem como sua integração com uma ontologia. Este trabalho foi realizado no contexto de um estudo de caso em uma empresa que atua na área de Oncologia. Foram efetuadas análises detalhadas de um sistema amplamente utilizado em EHRs de clínicas de oncologia. A partir desta análise foi gerado um dos diferenciais do trabalho, através da composição de datasets inéditos de entidades e relações de evoluções médicas, contendo 1.622 documentos anotados, sendo 146.769 entidades e 111.716 relações. Outro diferencial do trabalho está relacionado com a adaptação de uma ontologia de domínio para representar os dados estruturados deste estudo de caso. Por fim, foram conduzidos experimentos com abordagens para extrair entidades e relações em texto, alcançando resultados como 78,24% de precisão no domínio de exames e 72,87% no domínio de diagnósticos. Além disso, uma ontologia com foco em oncologia foi construída e integrada ao modelo, englobando aproximadamente 181 classes, 14 propriedades de dados, 12 propriedades de objetos e mais de 200 indivíduos. Especialistas da área de saúde avaliaram o modelo, obtendo uma taxa de acerto de 73,52% em relação a análise deles, e a pesquisa de usabilidade mostrou uma excelente aceitação. Destaca-se como diferencial do trabalho o treinamento de modelos com uso de dados reais de oncologia e a construção de uma base de conhecimento através da ontologia;
Abstract There has been a significant increase in the number of Electronic Health Records (EHRs) that accommodate unstructured data, such as text and natural language observations. Consequently, there is a growing interest in using this data to promote improvements in health. Manual analysis of these data is not feasible due to the large volume, which continues to increase. Therefore, there is a need for an approach that automatically structures this information, enabling it to assist health professionals in data analysis, treatment recommendations, disease diagnoses, among other applications.An evaluation of the literature in this area has identified demands for addressing this problem in Portuguese. However, there are still a limited number of studies with real data from the health sector. A research opportunity identified is the use of resources based on the Transformers architecture and the application of the results for data structuring in ontologies.In this context, this work aims to develop a model for processing unstructured data from EHRs to support the activity of updating an ontology. The contributions of this research are present in two related aspects. Firstly, it aims to support the development of applications in EHR systems for oncology by enhancing their capacity to utilize unstructured data. Secondly, the research focuses on experimenting and proposing advances in computing approaches for entity recognition and relations extraction, as well as integrating them with an ontology. The study was carried out as a case study in a company operating in the field of Oncology. Detailed analyses of a widely used system in EHRs of oncology clinics were conducted. As a result of this analysis, one of the distinctive features of the work is the creation of unpublished datasets of entities and relations of medical evolutions, containing 1,622 annotated documents, comprising 146,769 entities and 111,716 relations. Another unique aspect of the work is the adaptation of a domain ontology to represent the structured data of this case study. Finally, experiments were conducted with approaches to extract entities and relations in text, achieving results such as 78.24% accuracy in the exams domain and 72.87% in the diagnostics domain. In addition, an ontology focused on oncology was built and integrated into the model, encompassing approximately 181 classes, 14 data properties, 12 object properties, and over 200 individuals. Healthcare specialists evaluated the model, obtaining a 73.52% accuracy rate in relation to their analysis, and the usability research showed excellent acceptance. The training of models using real oncology data and the construction of a knowledge base through ontology stands out as a differential of the work.;
Palavras-chave Deep learning; Processamento de Linguagem Natural; Reconhecimento de entidades nomeadas e extração de relações; Ontologia; EHR; Natural Language Processing; Named entity recognition and relation extraction; Ontology;
Área(s) do conhecimento ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
Tipo Tese;
Data de defesa 2023-11-09;
Agência de fomento CNPQ – Conselho Nacional de Desenvolvimento Científico e Tecnológico;
Direitos de acesso openAccess;
URI http://repositorio.jesuita.org.br/handle/UNISINOS/12911;
Programa Programa de Pós-Graduação em Computação Aplicada;


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar

Busca avançada

Navegar

Minha conta

Estatística