Autor |
Mello, Blanda Helena de; |
Lattes do autor |
http://lattes.cnpq.br/4431420798042695; |
Orientador |
Rigo, Sandro José; |
Lattes do orientador |
http://lattes.cnpq.br/3914159735707328; |
Co-orientador |
Costa, Cristiano André da; |
Lattes do co-orientador |
http://lattes.cnpq.br/9637121030877187; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
En; |
Título |
A semantic interoperability model based on NLP for nonstructured health data; |
Resumo |
O domínio da saúde enfrenta desafios significativos no gerenciamento do crescente
volume de dados gerados diariamente, particularmente na coleta e compartilhamento
dessas informações. Profissionais de saúde, como médicos, enfermeiros, radiologistas,
cardiologistas, cirurgiões e outros especialistas frequentemente inserem dados de
pacientes em sistemas eletrônicos, geralmente em um formato textual aberto e não
estruturado. Uma revisão da literatura revela vários desafios no processamento de dados
do mundo real, com uma questão crítica sendo a escassez de ferramentas e dicionários
disponíveis em português para o setor de saúde. Essa lacuna, juntamente com os
desafios únicos inerentes ao processamento de dados de saúde, adiciona considerável
complexidade à extração e estruturação de informações essenciais de registros clínicos.
Além disso, garantir a interoperabilidade de dados entre diferentes provedores de saúde
se torna desafiador quando esses provedores não visam inicialmente a interoperabilidade
durante a coleta de dados. Observando esses desafios, esta pesquisa propôs um modelo
para permitir a interoperabilidade semântica de notas clínicas de sistemas de prontuários
eletrônicos. A metodologia usada nesta pesquisa tem um caráter aplicado e exploratório,
e foi avaliada por meio do desenvolvimento de um protótipo. Esta abordagem visa
mapear as limitações atuais no processamento e integração de dados, especificamente no contexto de notas clínicas em português brasileiro, e criar um modelo flexível que possa tratar dados do mundo real de forma mais eficaz na estruturação e compartilhamento de dados. Esta pesquisa faz parte do projeto MinhaSaudeDigital (MSD), uma colaboração entre a universidade e seis hospitais de Porto Alegre, que forneceram dados de pacientes hospitalizados que testaram positivo para COVID-19, garantindo um problema do mundo real para o contexto de dados de saúde. Foram analisadas as características dos dados com relação à interoperabilidade entre provedores e proposto um modelo que envolve técnicas híbridas para extração de informações, normalização lexical e estruturação de dados para harmonização de padrões. Assim, definiu-se um conjunto de experimentos que emprega o aprendizado de máquina, combinando a arquitetura Transformers para reconhecimento de entidades com processamento de linguagem natural para normalização lexical e correspondência semântica, por adotando ontologias OWL como uma estrutura de representação intermediária. Os experimentos revelaram três contribuições principais. Primeiro, o desenvolvimento de um conjunto de dados anotados especializados, classificando seis entidades com 18.666 anotações validadas por especialistas em 314 documentos. Em segundo lugar, conduzidos experimentos usando modelos BERT ajustados em um pequeno conjunto de dados para reconhecimento de entidades, alcançando 95% de precisão, com taxas de precisão de 90% para classificar entidades relacionadas a Procedimentos Invasivos ou Terapêuticos e 89% para Doenças ou Síndromes e Procedimentos Diagnósticos. Esses resultados demonstram a eficácia do
modelo na extração de informações relevantes de notas clínicas não estruturadas.
Terceiro, ontologias como estruturas de representação intermediárias garantiram a
consistência semântica necessária à interoperabilidade mantendo um formato
independente. As limitações e oportunidades para estudos futuros desta pesquisa
incluem a aplicação do modelo a dados de diferentes domínios, como notas de
enfermagem, odontologia, contexto clínico e registros de responsabilidade. Outro tópico
é a lacuna na desambiguação de termos e alinhamento semântico em dados de saúde,
com foco na vinculação de terminologias a dados estruturados, garantindo codificação
internacional para dados clínicos e permitindo a interoperabilidade entre fronteiras.
Finalmente, esta pesquisa visa contribuir para a continuidade do cuidado e saúde do
cidadão e orientar desenvolvedores e provedores na construção de plataformas robustas e complexas que implementem o uso de padrões de saúde. Também espera-se que cada vez mais profissionais e gestores de saúde melhorem a assistência médica em todo o mundo por meio da adoção de padrões internacionais em sistemas de prontuários eletrônicos.; |
Abstract |
The healthcare domain faces significant challenges in managing the rapidly growing
volume of data generated daily, particularly in the collection and sharing of this
information. Healthcare professionals such as physicians, nurses, radiologists,
cardiologists, surgeons, and other specialists frequently enter patient data into electronic
systems, often in an open, unstructured textual format. We conducted a literature
review that reveals several challenges in processing real-world data, with one critical
issue being the scarcity of tools and dictionaries available in Portuguese for the
healthcare sector. This gap, coupled with the unique challenges inherent in healthcare
data processing, adds considerable complexity to extracting and structuring essential
information from clinical records. Additionally, ensuring data interoperability between
different healthcare providers becomes challenging when these providers do not initially
aim for interoperability during input data. Observing these challenges, this research
proposed a model to enable semantic interoperability of clinical notes from electronic
health record systems. The methodology used in this research has an applied and
exploratory character, and it has been evaluated through the development of a
prototype. This approach aims to address some of the current limitations in data
processing and integration, specifically within the Portuguese healthcare context, and to
create a flexible model that can treat real-world data more effectively in structuring and
sharing data. This research is part of the MyDigitalHealth project, a collaboration
between the university and six hospitals in Porto Alegre, which provided data from
hospitalized patients who tested positive for COVID-19, ensuring a real-world context
for data issues. We analyzed the characteristics of the data with respect to
interoperability between providers and proposed a model that involves hybrid techniques
for information extraction, lexical normalization, and structure for standard
harmonization. Thus, we defined a set of experiments using machine learning,
combining the Transformers architecture for entity recognition with natural language
processing for lexical normalization and semantic matching and adopting OWL
ontologies as an intermediary representation structure. The experiments revealed three
main contributions. First, we developed a specialized annotated dataset, classifying six
entities with 18,666 validated annotations by specialists in 314 documents. Second, we
conducted experiments using BERT models fine-tuned on our small dataset for entity
recognition, achieving 95% accuracy, with precision rates of 90% for classifying entities
related to Invasive or Therapeutic Procedures and 89% for Disease or Syndrome and
Diagnostic Procedures. These results demonstrate the model’s effectiveness in extracting
relevant information from unstructured clinical notes. Third, ontologies as intermediary
representation structures ensured semantic consistency and enhanced interoperability in
an independent format. The limitations and opportunities for future studies from this
research include applying the model to data from different domains, such as nursing
notes, odontology, clinic context, and accountability records. Another topic is the gap in
term disambiguation and semantic alignment in healthcare data, focusing on linking
terminologies to structured data, ensuring international coding for clinical data, and
enabling interoperability across borders. Finally, this research aims to contribute to the
continuity of citizen healthcare and guide developers and providers in building robust
and complex platforms that implement the use of healthcare standards. We also expect
more and more professionals and health managers to improve healthcare worldwide
through the adoption of international standards within electronic health record systems.; |
Palavras-chave |
Interoperabilidade semântica; Registro eletrônico de saúde; Ontologia; Processamento de Linguagem Natural; Aprendizado de máquina; Semantic interoperability; Electronic health record; Ontology; Natural Language Processing; Machine learning; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Tese; |
Data de defesa |
2024-11-13; |
Agência de fomento |
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior; |
Direitos de acesso |
openAccess; |
URI |
http://repositorio.jesuita.org.br/handle/UNISINOS/13608; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |