Autor |
Oliveira, Jezer Machado de; |
Lattes do autor |
http://lattes.cnpq.br/5814851519682023; |
Orientador |
Costa, Cristiano André da; |
Lattes do orientador |
http://lattes.cnpq.br/9637121030877187; |
Co-orientador |
Antunes, Rodolfo Stoffel; |
Lattes do co-orientador |
http://lattes.cnpq.br/2364296914395793; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
pt_BR; |
Título |
Um modelo multinível para estruturação de informações contidas em evoluções de prontuários escritos em texto livre; |
Resumo |
A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui
rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte
na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de
suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram
utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.; |
Abstract |
The medical field has undergone a series of transformations with the adoption of new
technologies. One aspect that has seen significant changes is how patient information is stored. Electronic health records have brought a series of advantages, but they still present some issues. One of these issues is of structuring of the information contained in clinical notes. These notes can be stored in free text, that is, in an unstructured form; in a semi-structured form, containing a list of free-text fields to categorize each piece of information; in a structured form, where each piece of information has a series of specific fields; or a combination of these forms. Greater structuring brings a wealth of information and ease of automated consultation. On the other hand, the medical staff must dedicate more attention when managing clinical notes due to the rules to maintain its structure. This problem is more evident when migrating from a less structured record to a more structured record, given the impracticality of direct migration. Considering these aspects, this study arises from a concrete need, related to the migration of an electronic health record software from a company that used unstructured clinical notes to an electronic health record with structured and semi-structured records. For this migration to be effective, the following software requirements are imperative: that all relevant information is maintained and that it is at least semi-structured and, when possible, fully structured. Through a systematic review to find the state of the art in the field, no proposal was found that satisfactorily meets these requirements. Considering this context, this work proposes a multi-level model for structuring progress notes written in free text in the Portuguese language. The main requirements of the model are that, in the structuring process, all relevant information from the clinical notes is maintained, that the information is structured at least at the sentence level, and that, when possible, each entity in the sentence is also structured. The model consists of a pipeline with two main components: the first is responsible for structuring the information at the sentence level, by dividing the text and individually classifying each sentence in the SOAP notes. At the second level, if possible, structuring is done at the level of its entities, identifying and relating them. To evaluate the viability of the model, a prototype of the pipeline was implemented, using natural language processing and machine learning techniques, such as BERT models, associating its subcomponents with classic NLP tasks such as sentence boundary detection, sentence classification, named entity recognition, relation extraction, and ontology matching. For training and evaluating the pipeline and networks, a database provided by the company
that motivated the study was used. The database contains 10,000 records and 234,673 clinical notes, of which 15,883 were divided into 100,021 sentences, classified, and structured through a Graphical User Interface (GUI) developed for this task, forming the gold standard for network training. After a series of training and evaluations, the best networks were selected, and the pipeline was implemented. For the final evaluation of this pipeline, 721 records with a total of 10,013 sentences were used, which were also classified using the GUI, forming the gold standard for the final evaluation. The results obtained were compared with those of the pipeline, achieving an accuracy of 0.8641, precision of 0.9493, and F-score of 0.9029 for the first level of structuring, and an accuracy of 0.8354, precision of 0.9382, and F-score of 0.8815 for the second level of
structuring.; |
Palavras-chave |
Informática médica; Processamento de Linguagem Natural; Prontuário eletrônico; Estruturação de informação; Medical informatics; Natural Language Processing; Electronic health record; Data structuring; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Tese; |
Data de defesa |
2024-07-31; |
Agência de fomento |
IFRS - Instituto Federal do Rio Grande do Sul; |
Direitos de acesso |
openAccess; |
URI |
http://repositorio.jesuita.org.br/handle/UNISINOS/13421; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |