Abstract:
Há uma grande expectativa em relação ao uso da linguagem natural como interface de comunicação com as máquinas. Dentre as várias aplicações que implementam tal interface, despontam os sistemas de Pergunta e Resposta Semânticos, os quais possibilitam localização de informações em bases de conhecimento a partir de perguntas formuladas em linguagem natural. Percebe-se nos trabalhos em andamento uma tendência à implementação de soluções baseadas nas informações léxicas e morfológicas das perguntas, desprezando-se as informações abstratas de nível mais elevado do processamento linguístico. Esta tese apresenta uma abordagem que explora de forma aprofundada as informações sintáticas e estruturais das perguntas, fundamentando-se nestes níveis mais elevados da linguística para depreender o significado de frases e assim localizar respostas nas bases de conhecimentos semânticas. A abordagem propõem um modelo que faz uso das informações linguísticas da pergunta para determinar o seu tipo e selecionar as palavras chaves que serão utilizadas para a busca de respostas na base de conhecimento. Ao contrário de outros trabalhos, o modelo propõem uma solução baseada em linguística integrada a outras duas diferentes técnicas de implementação, visando apresentar uma solução que explore as vantagens que cada técnica oferece. A abordagem usa as informações morfossintáticas e estruturais da frase para determinar o tipo da pergunta e para selecionar as suas palavras chaves. Posteriormente, utiliza novamente as informações linguísticas para otimizar o desempenho do algoritmo baseado em grafo para geração e ranqueamento de candidatas a resposta. Por fim, caso o uso integrado das informações linguísticas com a técnica baseada em grafos não seja suficiente para a seleção inequívoca das respostas, a abordagem busca apoio na semântica latente do word embedding para validar as respostas. Os experimentos de avaliação da abordagem mostraram um desempenho acima dos demais concorrentes, apresentando Escore F1 micro de 0,56 e Escore F1 macro de 0,593.