Autor |
Vianna, Ana Luiza Treichel; |
Lattes do autor |
http://lattes.cnpq.br/4981740705074145; |
Orientador |
Rigo, Sandro José; |
Lattes do orientador |
http://lattes.cnpq.br/3914159735707328; |
Co-orientador |
Fronza, Cátia de Azevedo; |
Lattes do co-orientador |
http://lattes.cnpq.br/8861465576589134; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola da Indústria Criativa; |
Idioma |
pt_BR; |
Título |
Semântica de frames, harmonização terminológica e computação: o uso de frames semânticos como princípio organizador para a harmonização de termos e conceitos e a representação do conhecimento em large language models; |
Resumo |
Esta tese tem por objetivo investigar o papel da Semântica de Frames como princípio organizador de uma base de dados Enterprise Resource Planning (ERP), contribuindo para a harmonização terminológica, bem como automatizar tal tarefa em um Large Language Model (LLM). Com a transformação digital e o uso de Large Language Models (LLMs), como o ChatGPT (OpenAI, 2024), muitas atividades que, anteriormente, eram realizadas manualmente estão sendo automatizadas. No contexto empresarial, para se gerir uma empresa, todo o processamento de dados era feito separadamente. Hoje em dia, contamos com o software Enterprise Resource Planning (ERP), que integra todas as áreas de uma instituição a fim de permitir que se compartilhem os dados de todos os setores corporativos, desde Recursos Humanos até Logística. A fim de tornar a comunicação mais eficiente e evitar inconsistências terminológicas, a International Organization for Standardization (ISO) desenvolveu a recomendação ISO 860:2007, referente à harmonização de termos e conceitos, que busca harmonizar a terminologia de um domínio. Para essa tarefa, a ISO se baseou nos pressupostos de Wüster (1968, 1974) e da Teoria Geral da Terminologia (Felber, 1979), não considerando os aspectos contextuais, cognitivos e variacionais em sua composição, nem possibilitando que se harmonizem termos de dois ou mais domínios concomitantemente. Em se tratando da terminologia de uma empresa, muitas vezes, utilizamos diferentes termos para nos referirmos a um mesmo conceito em áreas distintas. Para solucionar esse impasse terminológico, em nível teórico, buscaram-se subsídios na Semântica de Frames (Fillmore, 1967, 1976, 1982, 1985) para lidar com o mapeamento do ERP e dos setores que o compõem. Para o estudo terminológico, utilizou-se a Frame-based Terminology (Faber, 2012, 2014, 2015) para analisar e organizar a terminologia do software. Com essa fundamentação, foi proposta uma abordagem semântico-terminológica para a harmonização de termos e conceitos. Em nível prático, arquitetou-se um Knowledge Graph com frames semânticos do ERP e se automatizou a metodologia de harmonização em um LLM, elaborando diferentes estratégias de prompt para que o modelo fizesse uma harmonização considerando a proposta desenvolvida na tese. Como metodologia, utilizou-se a Linguística de Corpus para a compilação dos corpora de pesquisa a fim de extrair a terminologia e selecionar os termos a serem harmonizados. Após a seleção de termos, analisaram-se três conjuntos terminológicos e se propôs uma harmonização manual para cada grupo. Posteriormente, utilizaram-se dois modelos de linguagem, ChatGPT-4 e ChatGPT-4 32k, para a automatização da proposta semântico-terminológica para harmonização de termos e conceitos. Com os experimentos realizados neste trabalho, observou-se que a Semântica de Frames serve como princípio organizador para o ERP e contribui para a harmonização, fornecendo mais dados linguísticos para a seleção do termo principal e suas variantes. No que se refere à harmonização automática em um LLM, percebeu-se que o modelo em temperatura 1 apresentou uma harmonização similar a realizada manualmente, uma vez que considerou todas as informações contextuais provenientes de definições terminológicas e da representação do conhecimento combinadas com a sua criatividade. Observou-se que uma base semântico-terminológica qualifica a tarefa de harmonização, proporcionando mais contexto e conteúdo linguístico. Além disso, evidenciou-se que é possível automatizar a harmonização em um LLM, obtendo resultados similares à harmonização manual. Por fim, salientamos que a combinação entre Semântica de Frames, Frame-based Terminology e Inteligência Artificial não só possibilitou a elaboração da estrutura conceptual do ERP, como também contribuiu para a organização da terminologia do software, oferecendo um tratamento mais robusto à harmonização de termos e conceitos capaz de automatizar tal tarefa em um Large Language Model de forma mais eficiente e precisa.; |
Abstract |
This PhD dissertation aims to investigate the role of Frame Semantics as an organizing principle for an ERP database, contributing to terminological harmonization, as well as automating this task in a Large Language Model. With digital transformation and the use of Large Language Models (LLMs), such as ChatGPT (OpenAI, 2024), many activities that were previously performed manually are now being automated. In the business context, data processing was once carried out separately to manage a company. Today, we have Enterprise Resource Planning (ERP) software, which integrates all areas of an institution to enable data sharing across all corporate sectors, from Human Resources to Logistics. To make communication more efficient and avoid terminological inconsistencies, the International Organization for Standardization (ISO) developed the ISO 860:2007 recommendation on the harmonization of terms and concepts, which seeks to harmonize terminology within a domain. For this task, ISO relied on the assumptions of Wüster (1968, 1974) and the General Theory of Terminology (Felber, 1979), which do not take contextual, cognitive, and variational aspects into account, nor allow for the harmonization of terms from two or more domains simultaneously. Regarding company terminology, different terms are often used to refer to the same concept in different areas. To address this terminological issue, at a theoretical level, Frame Semantics (Fillmore, 1967, 1976, 1982, 1985) was used to support the mapping of the ERP and its components. For terminological study, Frame-based Terminology (Faber, 2012, 2014, 2015) was utilized to analyze and organize the software’s terminology. With this foundation, a semantic-terminological approach for the harmonization of terms and concepts was proposed. On a practical level, a Knowledge Graph was designed with semantic frames of the ERP, and the harmonization methodology was automated in an LLM by developing different prompt strategies for the model to perform harmonization according to the thesis' proposal. Corpus Linguistics was used as the methodology to compile research corpora, allowing for the extraction of terminology and the selection of terms to be harmonized. After selecting the terms, three terminological sets were analyzed, and manual harmonization was proposed for each group. Subsequently, two language models, ChatGPT-4 and ChatGPT-4 32k, were used to automate the semantic-terminological proposal for harmonizing terms and concepts. The experiments carried out in this study showed that Frame Semantics serves as an organizing principle for ERP and contributes to harmonization, providing more linguistic data for selecting the main term and its variants. Regarding automatic harmonization in an LLM, it was observed that the model at temperature 1 produced harmonization like the one performed manually, as it considered all contextual information from terminological definitions and knowledge representation combined with its creativity. It was observed that a semantic-terminological database enhances the harmonization task by providing more context and linguistic content. Moreover, it was demonstrated that it is possible to automate harmonization in an LLM, achieving results similar to the manual harmonization. Finally, we highlight that the combination between Frame Semantics, Frame-based Terminology and Artificial Intelligence allowed the elaboration of the ERP conceptual structure, as well as it contributed to the organization of the software’s terminology, allowing to give a sturdy design to the harmonization of terms and concepts and to automatize such task in a Large Language Model in a more precise and efficient way.; |
Palavras-chave |
Harmonização de termos e conceitos; Semântica de Frames; Frame-based terminology; Large language model; Knowledge graph; Harmonization of terms and concepts; Frame Semantics; |
Área(s) do conhecimento |
ACCNPQ::Linguística, Letras e Artes::Linguística Aplicada; |
Tipo |
Tese; |
Data de defesa |
2024-10-30; |
Agência de fomento |
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior; |
Direitos de acesso |
openAccess; |
URI |
http://repositorio.jesuita.org.br/handle/UNISINOS/13475; |
Programa |
Programa de Pós-Graduação em Linguística Aplicada; |