Abstract:
O objetivo deste trabalho é investigar o fenômeno da variação lexical em português e inglês nas etapas de alinhamento de termos e substituição lexical em Processamento de Linguagem Natural (PLN) levando em consideração o domínio especializado do varejo. Como aporte teórico, embasamo-nos em uma interface interdisciplinar que considera os postulados das áreas da Computação e da Linguística. Portanto, oferecemos um panorama teórico sobre a utilização de informação semântica no desenvolvimento de sistemas de PLN e demonstramos maneiras de implementação de informação semântica em bases lexicais computacionais como a WordNet, a FrameNet e a FrameNet Brasil. No que tange à Linguística, apoiamo-nos nas definições de Murphy (2003, 2010), L’Homme (2020) e Croft & Cruse (2004) a respeito das relações semânticas direcionadas à terminologia especializada. Também levamos em consideração as classificações e inferências de León-Araúz & Faber (2014) a respeito das variações lexicais e equivalentes de tradução no âmbito da Terminologia. Nossa metodologia apoia-se nas conjecturas da Linguística de Corpus e baseia-se na utilização da ferramenta Sketch Engine para analisar os corpora em inglês e português que buscam representar a terminologia do domínio. Os pares de termos escolhidos para o exercício de investigação da tarefa de substituição lexical são “plant” – “site” e “material” – “article”. A terminologia utilizada na análise monolíngue provém das predições geradas por três modelos de substituição lexical: um primeiro modelo considera a sinonímia entre termos, o segundo se volta a uma camada adicional de informação, os word embeddings, e o terceiro modelo atua com o auxílio de uma camada de informação adicional que recupera os frames semânticos. A terminologia utilizada na análise multilíngue provém do corpus utilizado e de uma coleta em bases terminológicas do varejo. A análise monolíngue busca classificar as predições dos modelos de acordo com as relações semânticas e resulta em uma categorização dos termos de acordo com as definições de variação terminológica de León-Araúz & Faber (2014). A análise bilíngue, por sua vez, classifica os equivalentes de tradução dos pares de termos de acordo com o problema de tradução que representam e com os tipos de equivalência elencados por León-Araúz & Faber (2014). Por fim, a partir de análises de cunho semântico-terminológico, nossos resultados apontam para a obtenção de melhorias de modelos de substituição lexical e modelos de tradução automática que levem em consideração a informação semântica e as categorias de classificação terminológicas com o intuito de avançar na qualidade e a precisão linguística dos resultados.