Abstract:
Existe um grande aumento do número de Electronic Health Records (EHRs) que acomodam dados não estruturados, tais como textos e observações em linguagem natural. Consequentemente, cresce o interesse em utilizar tais dados para promover melhorias na saúde. A análise manual desses dados não é viável, devido ao grande volume existente, cuja tendência é o aumento contínuo. Sendo assim, há necessidade de uma abordagem que possibilite que essas informações sejam automaticamente estruturadas para que possam auxiliar profissionais da saúde na análise de dados, recomendação de tratamentos, diagnósticos de doenças, entre outros. Uma avaliação da literatura na área permitiu identificar demandas para o tratamento deste problema
na língua portuguesa, bem como a existência de um número ainda reduzido de trabalhos com dados reais da área de saúde. Também foi identificado como oportunidade de pesquisa a utilização de recursos baseados na arquitetura Transformers e uso dos resultados para a estruturação de dados em ontologias. Neste contexto, este trabalho tem como objetivo o desenvolvimento de um modelo para o processamento de dados não estruturados de EHRs para apoiar a atividade de atualização de uma ontologia. As contribuições dessa pesquisa estão presentes em dois aspectos relacionados. Um deles situa-se no apoio ao desenvolvimento de aplicações em sistemas EHR para oncologia, através da ampliação da capacidade desses sistemas para o uso dos dados não estruturados. O segundo aspecto de contribuição está relacionado com a experimentação e proposta de avanços na computação em abordagens para reconhecimento de entidades e extração de relações, bem como sua integração com uma ontologia. Este trabalho foi realizado no contexto de um estudo de caso em uma empresa que atua na área de Oncologia. Foram efetuadas análises detalhadas de um sistema amplamente utilizado em EHRs de clínicas de oncologia. A partir desta análise foi gerado um dos diferenciais do trabalho, através da composição de datasets inéditos de entidades e relações de evoluções médicas, contendo 1.622 documentos anotados, sendo 146.769 entidades e 111.716 relações. Outro diferencial do trabalho está relacionado com a adaptação de uma ontologia de domínio para representar os dados estruturados
deste estudo de caso. Por fim, foram conduzidos experimentos com abordagens para extrair entidades e relações em texto, alcançando resultados como 78,24% de precisão no domínio de exames e 72,87% no domínio de diagnósticos. Além disso, uma ontologia com foco em oncologia foi construída e integrada ao modelo, englobando aproximadamente 181 classes, 14 propriedades de dados, 12 propriedades de objetos e mais de 200 indivíduos. Especialistas da área de saúde avaliaram o modelo, obtendo uma taxa de acerto de 73,52% em relação a análise deles, e a pesquisa de usabilidade mostrou uma excelente aceitação. Destaca-se como diferencial do trabalho o treinamento de modelos com uso de dados reais de oncologia e a construção de uma base de conhecimento através da ontologia