Abstract:
Esta tese tem por objetivo investigar o papel da Semântica de Frames como princípio organizador de uma base de dados Enterprise Resource Planning (ERP), contribuindo para a harmonização terminológica, bem como automatizar tal tarefa em um Large Language Model (LLM). Com a transformação digital e o uso de Large Language Models (LLMs), como o ChatGPT (OpenAI, 2024), muitas atividades que, anteriormente, eram realizadas manualmente estão sendo automatizadas. No contexto empresarial, para se gerir uma empresa, todo o processamento de dados era feito separadamente. Hoje em dia, contamos com o software Enterprise Resource Planning (ERP), que integra todas as áreas de uma instituição a fim de permitir que se compartilhem os dados de todos os setores corporativos, desde Recursos Humanos até Logística. A fim de tornar a comunicação mais eficiente e evitar inconsistências terminológicas, a International Organization for Standardization (ISO) desenvolveu a recomendação ISO 860:2007, referente à harmonização de termos e conceitos, que busca harmonizar a terminologia de um domínio. Para essa tarefa, a ISO se baseou nos pressupostos de Wüster (1968, 1974) e da Teoria Geral da Terminologia (Felber, 1979), não considerando os aspectos contextuais, cognitivos e variacionais em sua composição, nem possibilitando que se harmonizem termos de dois ou mais domínios concomitantemente. Em se tratando da terminologia de uma empresa, muitas vezes, utilizamos diferentes termos para nos referirmos a um mesmo conceito em áreas distintas. Para solucionar esse impasse terminológico, em nível teórico, buscaram-se subsídios na Semântica de Frames (Fillmore, 1967, 1976, 1982, 1985) para lidar com o mapeamento do ERP e dos setores que o compõem. Para o estudo terminológico, utilizou-se a Frame-based Terminology (Faber, 2012, 2014, 2015) para analisar e organizar a terminologia do software. Com essa fundamentação, foi proposta uma abordagem semântico-terminológica para a harmonização de termos e conceitos. Em nível prático, arquitetou-se um Knowledge Graph com frames semânticos do ERP e se automatizou a metodologia de harmonização em um LLM, elaborando diferentes estratégias de prompt para que o modelo fizesse uma harmonização considerando a proposta desenvolvida na tese. Como metodologia, utilizou-se a Linguística de Corpus para a compilação dos corpora de pesquisa a fim de extrair a terminologia e selecionar os termos a serem harmonizados. Após a seleção de termos, analisaram-se três conjuntos terminológicos e se propôs uma harmonização manual para cada grupo. Posteriormente, utilizaram-se dois modelos de linguagem, ChatGPT-4 e ChatGPT-4 32k, para a automatização da proposta semântico-terminológica para harmonização de termos e conceitos. Com os experimentos realizados neste trabalho, observou-se que a Semântica de Frames serve como princípio organizador para o ERP e contribui para a harmonização, fornecendo mais dados linguísticos para a seleção do termo principal e suas variantes. No que se refere à harmonização automática em um LLM, percebeu-se que o modelo em temperatura 1 apresentou uma harmonização similar a realizada manualmente, uma vez que considerou todas as informações contextuais provenientes de definições terminológicas e da representação do conhecimento combinadas com a sua criatividade. Observou-se que uma base semântico-terminológica qualifica a tarefa de harmonização, proporcionando mais contexto e conteúdo linguístico. Além disso, evidenciou-se que é possível automatizar a harmonização em um LLM, obtendo resultados similares à harmonização manual. Por fim, salientamos que a combinação entre Semântica de Frames, Frame-based Terminology e Inteligência Artificial não só possibilitou a elaboração da estrutura conceptual do ERP, como também contribuiu para a organização da terminologia do software, oferecendo um tratamento mais robusto à harmonização de termos e conceitos capaz de automatizar tal tarefa em um Large Language Model de forma mais eficiente e precisa.