RDBU| Repositório Digital da Biblioteca da Unisinos

A semantic interoperability model based on NLP for nonstructured health data

Mostrar registro simples

Autor Mello, Blanda Helena de;
Lattes do autor http://lattes.cnpq.br/4431420798042695;
Orientador Rigo, Sandro José;
Lattes do orientador http://lattes.cnpq.br/3914159735707328;
Co-orientador Costa, Cristiano André da;
Lattes do co-orientador http://lattes.cnpq.br/9637121030877187;
Instituição Universidade do Vale do Rio dos Sinos;
Sigla da instituição Unisinos;
País da instituição Brasil;
Instituto/Departamento Escola Politécnica;
Idioma En;
Título A semantic interoperability model based on NLP for nonstructured health data;
Resumo O domínio da saúde enfrenta desafios significativos no gerenciamento do crescente volume de dados gerados diariamente, particularmente na coleta e compartilhamento dessas informações. Profissionais de saúde, como médicos, enfermeiros, radiologistas, cardiologistas, cirurgiões e outros especialistas frequentemente inserem dados de pacientes em sistemas eletrônicos, geralmente em um formato textual aberto e não estruturado. Uma revisão da literatura revela vários desafios no processamento de dados do mundo real, com uma questão crítica sendo a escassez de ferramentas e dicionários disponíveis em português para o setor de saúde. Essa lacuna, juntamente com os desafios únicos inerentes ao processamento de dados de saúde, adiciona considerável complexidade à extração e estruturação de informações essenciais de registros clínicos. Além disso, garantir a interoperabilidade de dados entre diferentes provedores de saúde se torna desafiador quando esses provedores não visam inicialmente a interoperabilidade durante a coleta de dados. Observando esses desafios, esta pesquisa propôs um modelo para permitir a interoperabilidade semântica de notas clínicas de sistemas de prontuários eletrônicos. A metodologia usada nesta pesquisa tem um caráter aplicado e exploratório, e foi avaliada por meio do desenvolvimento de um protótipo. Esta abordagem visa mapear as limitações atuais no processamento e integração de dados, especificamente no contexto de notas clínicas em português brasileiro, e criar um modelo flexível que possa tratar dados do mundo real de forma mais eficaz na estruturação e compartilhamento de dados. Esta pesquisa faz parte do projeto MinhaSaudeDigital (MSD), uma colaboração entre a universidade e seis hospitais de Porto Alegre, que forneceram dados de pacientes hospitalizados que testaram positivo para COVID-19, garantindo um problema do mundo real para o contexto de dados de saúde. Foram analisadas as características dos dados com relação à interoperabilidade entre provedores e proposto um modelo que envolve técnicas híbridas para extração de informações, normalização lexical e estruturação de dados para harmonização de padrões. Assim, definiu-se um conjunto de experimentos que emprega o aprendizado de máquina, combinando a arquitetura Transformers para reconhecimento de entidades com processamento de linguagem natural para normalização lexical e correspondência semântica, por adotando ontologias OWL como uma estrutura de representação intermediária. Os experimentos revelaram três contribuições principais. Primeiro, o desenvolvimento de um conjunto de dados anotados especializados, classificando seis entidades com 18.666 anotações validadas por especialistas em 314 documentos. Em segundo lugar, conduzidos experimentos usando modelos BERT ajustados em um pequeno conjunto de dados para reconhecimento de entidades, alcançando 95% de precisão, com taxas de precisão de 90% para classificar entidades relacionadas a Procedimentos Invasivos ou Terapêuticos e 89% para Doenças ou Síndromes e Procedimentos Diagnósticos. Esses resultados demonstram a eficácia do modelo na extração de informações relevantes de notas clínicas não estruturadas. Terceiro, ontologias como estruturas de representação intermediárias garantiram a consistência semântica necessária à interoperabilidade mantendo um formato independente. As limitações e oportunidades para estudos futuros desta pesquisa incluem a aplicação do modelo a dados de diferentes domínios, como notas de enfermagem, odontologia, contexto clínico e registros de responsabilidade. Outro tópico é a lacuna na desambiguação de termos e alinhamento semântico em dados de saúde, com foco na vinculação de terminologias a dados estruturados, garantindo codificação internacional para dados clínicos e permitindo a interoperabilidade entre fronteiras. Finalmente, esta pesquisa visa contribuir para a continuidade do cuidado e saúde do cidadão e orientar desenvolvedores e provedores na construção de plataformas robustas e complexas que implementem o uso de padrões de saúde. Também espera-se que cada vez mais profissionais e gestores de saúde melhorem a assistência médica em todo o mundo por meio da adoção de padrões internacionais em sistemas de prontuários eletrônicos.;
Abstract The healthcare domain faces significant challenges in managing the rapidly growing volume of data generated daily, particularly in the collection and sharing of this information. Healthcare professionals such as physicians, nurses, radiologists, cardiologists, surgeons, and other specialists frequently enter patient data into electronic systems, often in an open, unstructured textual format. We conducted a literature review that reveals several challenges in processing real-world data, with one critical issue being the scarcity of tools and dictionaries available in Portuguese for the healthcare sector. This gap, coupled with the unique challenges inherent in healthcare data processing, adds considerable complexity to extracting and structuring essential information from clinical records. Additionally, ensuring data interoperability between different healthcare providers becomes challenging when these providers do not initially aim for interoperability during input data. Observing these challenges, this research proposed a model to enable semantic interoperability of clinical notes from electronic health record systems. The methodology used in this research has an applied and exploratory character, and it has been evaluated through the development of a prototype. This approach aims to address some of the current limitations in data processing and integration, specifically within the Portuguese healthcare context, and to create a flexible model that can treat real-world data more effectively in structuring and sharing data. This research is part of the MyDigitalHealth project, a collaboration between the university and six hospitals in Porto Alegre, which provided data from hospitalized patients who tested positive for COVID-19, ensuring a real-world context for data issues. We analyzed the characteristics of the data with respect to interoperability between providers and proposed a model that involves hybrid techniques for information extraction, lexical normalization, and structure for standard harmonization. Thus, we defined a set of experiments using machine learning, combining the Transformers architecture for entity recognition with natural language processing for lexical normalization and semantic matching and adopting OWL ontologies as an intermediary representation structure. The experiments revealed three main contributions. First, we developed a specialized annotated dataset, classifying six entities with 18,666 validated annotations by specialists in 314 documents. Second, we conducted experiments using BERT models fine-tuned on our small dataset for entity recognition, achieving 95% accuracy, with precision rates of 90% for classifying entities related to Invasive or Therapeutic Procedures and 89% for Disease or Syndrome and Diagnostic Procedures. These results demonstrate the model’s effectiveness in extracting relevant information from unstructured clinical notes. Third, ontologies as intermediary representation structures ensured semantic consistency and enhanced interoperability in an independent format. The limitations and opportunities for future studies from this research include applying the model to data from different domains, such as nursing notes, odontology, clinic context, and accountability records. Another topic is the gap in term disambiguation and semantic alignment in healthcare data, focusing on linking terminologies to structured data, ensuring international coding for clinical data, and enabling interoperability across borders. Finally, this research aims to contribute to the continuity of citizen healthcare and guide developers and providers in building robust and complex platforms that implement the use of healthcare standards. We also expect more and more professionals and health managers to improve healthcare worldwide through the adoption of international standards within electronic health record systems.;
Palavras-chave Interoperabilidade semântica; Registro eletrônico de saúde; Ontologia; Processamento de Linguagem Natural; Aprendizado de máquina; Semantic interoperability; Electronic health record; Ontology; Natural Language Processing; Machine learning;
Área(s) do conhecimento ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
Tipo Tese;
Data de defesa 2024-11-13;
Agência de fomento CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior;
Direitos de acesso openAccess;
URI http://repositorio.jesuita.org.br/handle/UNISINOS/13608;
Programa Programa de Pós-Graduação em Computação Aplicada;


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar

Busca avançada

Navegar

Minha conta

Estatística