Autor |
Schmitt, Bruna Koch; |
Lattes do autor |
http://lattes.cnpq.br/2607626313157272; |
Orientador |
Rigo, Sandro José; |
Lattes do orientador |
http://lattes.cnpq.br/3914159735707328; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
en; |
Título |
Exploring linguistic information and semantic contextual models for a relation extraction task using deep learning; |
Resumo |
Deep Learning (DL) methods have been extensively used in many Natural Language Processing (NLP) tasks, including in semantic relation extraction. However, the performance of these methods is dependent on the type and quality of information being used as features. In NLP, linguistic information is being increasingly used to improve the performance of DL algorithms, such as pre-trained word embeddings, part-of-speech (POS) tags, synonyms, etc, and the use of linguistic information is now present in several state-of-the-art algorithms in relation extraction. However, no effort has been made to understand exactly the impact that linguistic information from different levels of abstraction (morphological, syntactic, semantic) has in these algorithms in a semantic relation extraction task, which we believe may bring insights in the way deep learning algorithms generalize language constructs when compared to the way humans process language. To do this, we have performed several experiments using a recurrent neural network (RNN) and analyzed how the linguistic information (part-of-speech tags, dependency tags, hypernyms, frames, verb classes) and different word embeddings (tokenizer, word2vec, GloVe, and BERT) impact on the model performance. From our results, we were able to see that different word embeddings techniques did not present significant difference on the performance. Considering the linguistic information, the hypernyms did improve the model performance, however the improvement was small, therefore it may not be cost effective to use a semantic resource to achieve this degree of improvement. Overall, our model performed significantly well compared to the existing models from the literature, given the simplicity of the deep learning architecture used, and for some experiments our model outperformed several models presented in the literature. We conclude that with this analysis we were able to reach a better understanding of whether deep learning algorithms require linguistic information across distinct levels of abstraction to achieve human-like performance in a semantic task.; |
Abstract |
Métodos de Aprendizado Profundo (AP) tem sido usados em muitas tarefas de Processamento de Linguagem Natural (PLN), inclusive em tarefas de extração de relações semânticas. Entretanto, a performance dos métodos é dependente do tipo e qualidade da informação dada ao algoritmo como características. Em PLN, informações linguísticas tem sido cada vez mais usadas para melhorar a performance de algoritmos de AP, como por exemplo, vetores de palavras pré-treinados, marcadores sintáticos, sinônimos, etc, e atualmente o uso de informações linguísticas está presente nos algoritmos de extração de relações do estado da arte. Porém, não tem sido o foco dessas pesquisas entender exatamente o impacto que o uso de informações linguísticas advindas de níveis distintos de abstração (morfológico, sintático, semântico) tem nos algoritmos aplicados a extração de relações, o que em nossa opinião pode trazer um maior conhecimento da forma que algoritmos de aprendizado profundo generalizam construtos da linguagem quando comparados com a forma que humanos processam a linguagem. Para atingir esse objetivo, realizamos vários experimentos usando uma rede neural recorrente e analizamos qual o impacto que informações linguísticas (categorias gramaticais, categorias sintáticas, hiperônimos, frames e classes verbais) e word embeddings (tokenizer, word2vec, Glove e BERT) tem na performance do modelo. A partir dos nossos resultados, vimos que os diferentes tipos de word embeddings não apresentaram uma diferença significativa na performance. Considerando a informação linguística, o uso de hiperônimos demonstrou uma melhora de performance do modelo, porém considerando que a melhora foi pequena, entendemos que pode não haver um melhor custo-benefício em usar esse recurso semântico para atingir uma melhora pequena de performance. De forma geral, nosso modelo atingiu uma performance boa comparada aos modelos da literatura, especialmente dada a simplicidade da arquitetura de aprendizado profundo usada nos experimentos. E ainda para alguns experimentos, nosso modelo teve a performance melhor que modelos apresentados na literatura. Em conclusão, consideramos que com essa análise obtivemos um melhor entendimento no quesito se os modelos de aprendizado profundo se beneficiam de informação linguística oriunda de distintos níveis de abstração linguística para atingir uma performance próxima à humana em uma tarefa semântica.; |
Palavras-chave |
Natural language processing; Relation extraction; Deep learning; Processamento de linguagem natural; Extração de relações; Aprendizado profundo; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Dissertação; |
Data de defesa |
2020-03-23; |
Agência de fomento |
Bolsa Talento Tecnosinos/SENAI; |
Direitos de acesso |
openAccess; |
URI |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/9214; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |