Abstract:
A área médica passou por uma série de transformações com a adoção de novas tecnologias. Um dos aspectos que sofreu mudanças significativas é a forma como as informações de um paciente são armazenadas. Os prontuários eletrônicos trouxeram uma série de vantagens, mas ainda apresentam alguns problemas. Um deles é a estruturação das informações contidas na evolução clínica. Essas evoluções podem ser armazenadas em texto livre, isto é, de forma não estruturada; de forma semi-estruturada, contendo uma lista de campos de texto livre para categorizar cada uma das informações; de forma estruturada, onde para cada informação existe uma série de campos específicos; ou uma combinação destas formas. Uma maior estruturação traz uma riqueza de informações e facilidade de consulta automatizada. Por outro lado, possui
rigidez e maior complexidade no seu preenchimento. Esse problema se acentua ao realizar uma migração de um prontuário menos estruturado para um prontuário mais estruturado, visto a inviabilidade de uma migração direta. Levando em conta esses aspectos, este estudo surge de uma necessidade concreta, relacionada à migração de um software de prontuário eletrônico de uma empresa que utilizava registros de evolução do paciente não estruturados para um prontuário eletrônico com registros estruturados e semi-estruturados. Para que essa migração seja eficaz, os seguintes requisitos de software são imperativos: que todas as informações relevantes sejam mantidas e que sejam pelo menos semi-estruturadas e, quando possível, sejam completamente estruturadas. Por meio de uma revisão sistemática para encontrar o estado da arte
na área, não foi encontrada nenhuma proposta que atenda de forma satisfatória esses requisitos. Considerando esse contexto, este trabalho propõe um modelo multinível para a estruturação das evoluções de prontuários escritos em texto livre na língua portuguesa. As principais premissas do modelo são que, no processo de estruturação, sejam mantidas todas as informações relevantes da evolução clínica, que a informação seja estruturada pelo menos no nível de sua sentença e que, quando possível, cada entidade da sentença também seja estruturada. O modelo é formado por um pipeline com dois componentes principais: o primeiro é responsável pela estruturação da informação no nível de sua sentença, ao dividir o texto e classificar individualmente cada sentença no padrão SOAP. No segundo nível, se possível, é feita uma estruturação no nível de
suas entidades, identificando-as e relacionando-as. Para avaliar a viabilidade do modelo, foi implementado um protótipo do pipeline, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina, como modelos BERT, associando seus subcomponentes a tarefas clássicas da PLN, como detecção de limite de sentença, classificação de sentenças, reconhecimento de entidades nomeadas, extração de relação e correspondência de ontologias. Para o treino e avaliação do pipeline e das redes, foi utilizada uma base de dados fornecida pela empresa que motivou o estudo. A base de dados contém 10.000 prontuários e 234.673 evoluções clínicas, das quais 15.883 foram divididas em 100.021 sentenças, classificadas e estruturadas através de uma Interface Gráfica de Usuário (GUI) desenvolvida para essa tarefa, formando o padrão ouro para o treino das redes. Após uma série de treinos e avaliações, as melhores redes foram selecionadas e o pipeline foi implementado. Para a avaliação final desse pipeline, foram
utilizados 721 prontuários com um total de 10.013 sentenças, que também foram classificadas usando a GUI, formando o padrão ouro para a avaliação final. Os resultados obtidos foram comparados com os do pipeline, alcançando uma acurácia de 0,8641, precisão de 0,9493 e medida-F de 0,9029 para avaliação do primeiro nível de estruturação e uma acurácia de 0,8354, precisão de 0,9382 e medida-F de 0,8815 para o segundo nível de estruturação.