Autor |
Schwertner, Marco Antonio; |
Lattes do autor |
http://lattes.cnpq.br/2302177858082034; |
Orientador |
Rigo, Sandro José; |
Lattes do orientador |
http://lattes.cnpq.br/3914159735707328; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
en; |
Título |
Exploring text classification methods in oncological medical notes using machine learning and deep learning; |
Resumo |
Com os avanços na medicina preventiva e personalizada, e as melhorias tecnológicas permitindo melhor interação do paciente com suas informações de saúde, o volume coletado de dados de saúde tem aumentado. Uma parte importante desses dados é armazenada em formato não estruturado em texto livre em linguagem natural, dificultando o processamento desses dados pelos Sistemas de Apoio à Decisão Clínica (SADC). Consequentemente, os profissionais de saúde ficam sobrecarregados tentando manter-se atualizados com as informações de saúde dos seus pacientes porque precisam de mais tempo para coletar e analisar esses dados manualmente. Definir um diagnóstico e tratamento oncológico é um processo de tomada de decisão complexo, pois é afetado por uma ampla gama de parâmetros. Para ajudar neste processo de tomado de decisão, esta pesquisa possui como principal objetivo aplicar diversos métodos de classificação de textos em corpora com registros médicos não sintéticos, para aprender e sugerir o diagnóstico baseado no histórico clínico do paciente. Primeiro, os corpora foram obtidos de um S-RES (Sistema de Registro Eletrônico em Saúde) Oncológico de três diferentes clínicas de oncologia. Foram criadas duas versões dos corpora: a versão por-evento-clínico com um registro médico de paciente por registro; e a versão porpaciente com um registro por paciente com seus registros médicos. Então, os corpora foram pré-processados para alavancar o desempenho dos classificadores. Por fim, diversos métodos de classificação de texto de aprendizagem de máquina e aprendizagem profunda foram treinados utilizando os corpora junto com o diagnóstico de cada paciente como dados enriquecidos. Diversos experimentos foram realizados, avaliando os seguintes métodos de classificação de textos de aprendizagem de máquina e de aprendizagem profunda: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). Um experimento adicional com um classificador MLP foi realizado para avaliar a influência da etapa de pré-processamento nos resultados, e foi encontrado que a acurácia média do classificador foi alavancada de 26,1% para 86,7% com o uso do corpus por-evento-clínico, e 93,9% com o corpus por-paciente. O classificador com melhor desempenho foi o MLP com duas camadas ocultas (800 e 500 neurônios), que atingiu 93,90% de acurácia, um escore Macro F1 de 93,61%, e um escore Weighted F1 de 93,99%. Os experimentos foram realizados num conjunto de dados com 3.308 registros médicos de uma clínica de oncologia pequena.; |
Abstract |
With the preventive and personalized medicine advances, and technological improvements enabling better interaction from patients with their healthcare information, the volume of healthcare data gathered has increased. A relevant part of these data is recorded as an unstructured format in natural language free-text, making it harder for Clinical Decision Support Systems (CDSS) to process these data. Consequently, healthcare professionals get overwhelmed keeping themselves updated with the patient’s healthcare information because they need more time to gather and analyze it manually. Furthermore, to define an oncology diagnosis and its treatment plan is a complex decision-making process because it is affected by a broad range of parameters. This research’s main objective is to apply several text classification methods in non-synthetic oncology clinical notes corpora to help with this decision-making process. First, the corpora were obtained from an Oncology EHR system from three different oncology clinics. Two corpora versions were created: the per-clinical-event version with each patient’s medical note per record; and the per-patient version with one record per patient with his or her medical notes. Then, these corpora were preprocessed to leverage the performance of the classifiers. As the last step, several machine learning and one deep learning text classification methods were trained using these corpora with each patient’s diagnosis as enriched data. The following machine learning and deep learning classification methods were applied: Multilayer Perceptron (MLP) neural network, Logistic Regression, Decision Tree classifier, Random Forest classifier, K-nearest neighbors (KNN) classifier, and Long-Short Term Memory (LSTM). An additional experiment with an MLP classifier was performed to evaluate the preprocessing step’s influence on the results, and it found that the classifier’s mean accuracy was leveraged from 26.1% to 86.7% with the per-clinical-event corpus, and 93.9% with the perpatient corpus. The classifier that best performed was the MLP with 2 hidden layers (800 and 500 neurons), which achieved 93.90% accuracy, a Macro F1 score of 93.61%, and a Weighted F1 score of 93.99%. The experiments were performed in a dataset with 3,308 medical notes from a small oncology clinic.; |
Palavras-chave |
Artificial intelligence; Deep learning; Machine learning; Healthcare; Oncology; Inteligência artificial; Aprendizagem profunda; Aprendizagem de máquina; Saúde; Oncologia; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Dissertação; |
Data de defesa |
2020-08-24; |
Agência de fomento |
Nenhuma; |
Direitos de acesso |
openAccess; |
URI |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/9461; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |