RDBU| Repositório Digital da Biblioteca da Unisinos

Explorando algoritmos de aprendizado de máquina em textos legais antitruste

Mostrar registro simples

Autor Almeida, Edilson Guedes de;
Lattes do autor http://lattes.cnpq.br/2029044916270859;
Orientador Kunst, Rafael;
Lattes do orientador http://lattes.cnpq.br/1301443198267856;
Instituição Universidade do Vale do Rio dos Sinos;
Sigla da instituição Unisinos;
País da instituição Brasil;
Instituto/Departamento Escola de Gestão e Negócios;
Idioma pt_BR;
Título Explorando algoritmos de aprendizado de máquina em textos legais antitruste;
Resumo Esta pesquisa explora a integração de algoritmos de aprendizado de máquina e PLN na análise antitruste do CADE no Brasil, utilizando a modelagem de tópicos para quantificar como a prevalência de tópicos pode auxiliar na previsão de decisões em casos de cartéis. O foco é identificar a técnica mais eficiente para examinar textos jurídicos do CADE, concentrando-se no entendimento do processo decisório e na avaliação de algoritmos relevantes, incluindo a investigação de hipóteses como a superioridade do modelo BERT, particularmente através do BERTopic, em identificar tópicos em textos legais antitruste. A metodologia abrange a coleta e análise de dados processuais e biográficos das autoridades do CADE, empregando várias ferramentas de modelagem, como NMF, LDA, CTM, Top2Vec e BERTopic, e métricas como NPMI, UMass Coherence, diversidade de tópicos e tempo de processamento, levando em conta considerações éticas. Os resultados mostram que o modelo BERTopic, especialmente nas configurações BERTimbau e DistilUSE, é notável em coerência, diversidade temática e eficiência temporal, tornando-se uma opção promissora para análises no contexto do CADE; a pesquisa enfatiza a importância da seleção criteriosa de modelos de PLN, variando desde o LDA, ideal para alta coerência e eficiência, até modelos baseados em embeddings, mais adequados para diversidade temática, e destaca as limitações encontradas, como os valores negativos de NPMI, sugerindo a necessidade de aperfeiçoamento na coerência dos tópicos e na precisão das configurações dos modelos. Além disso, a pesquisa explora o desempenho variado de diferentes técnicas de modelagem de tópicos e a inter-relação entre a sofisticação das técnicas e a necessidade de recursos computacionais, destacando a relevância dessas abordagens para as áreas da Economia e do Direito e sublinhando o valor da aplicação de métodos computacionais avançados nestes campos. Ao concluir, a tese ressalta a importância do pré-processamento de dados e do equilíbrio entre as técnicas de PLN e a disponibilidade de recursos computacionais, confirmando a eficácia do BERTopic na modelagem de tópicos em contextos jurídicos, apesar da necessidade de ajustes na coerência e nas configurações; e finalmente sugere a necessidade de futuras investigações para aprimorar as técnicas de PLN e modelagem de tópicos, visando ampliar sua aplicabilidade e relevância.;
Abstract This research explores the integration of machine learning algorithms and NLP in antitrust analysis by CADE in Brazil, utilizing topic modeling to quantify how the prevalence of topics can assist in predicting decisions in cartel cases. The focus is on identifying the most efficient technique for examining legal texts from CADE, concentrating on understanding the decision-making process and evaluating relevant algorithms, including investigating hypotheses such as the potential superiority of the BERT model, particularly through BERTopic, in identifying topics in antitrust legal texts. The methodology encompasses the collection and analysis of procedural and biographical data from CADE authorities, employing various modeling tools like NMF, LDA, CTM, Top2Vec, and BERTopic, as well as metrics like NPMI, UMass Coherence, topic diversity, and processing time, taking ethical considerations into account. The results show that the BERTopic model, especially in BERTimbau and DistilUSE configurations, is notable in coherence, thematic diversity, and temporal efficiency, becoming a promising option for analyses in the context of CADE; the research emphasizes the importance of a careful selection of NLP models, ranging from LDA, ideal for high coherence and efficiency, to embedding-based models, more suitable for thematic diversity, and highlights limitations encountered, such as negative NPMI values, suggesting a need for improvement in topic coherence and precision of model settings. Moreover, the research explores the varied performance of different topic modeling techniques and the interplay between the sophistication of the techniques and the need for computational resources, highlighting the relevance of these approaches for the fields of Economics and Law and underscoring the value of applying advanced computational methods in these fields. In conclusion, the thesis emphasizes the importance of data preprocessing and the balance between NLP techniques and the availability of computational resources, confirming the effectiveness of BERTopic in topic modeling in legal contexts, despite the need for adjustments in coherence and configurations; and finally suggests the need for future investigations to enhance NLP and topic modeling techniques, aiming to expand their applicability and relevance.;
Palavras-chave Modelagem de tópicos; Processamento de Linguagem Natural (PLN); Análise antitruste; Conselho Administrativo de Defesa da Concorrência (CADE); Aprendizado de máquina; Topic modeling; Natural Language Processing (NLP); Antitrust analysis; Administrative Council for Economic Defense (CADE); Machine learning;
Área(s) do conhecimento ACCNPQ::Ciências Sociais Aplicadas::Economia;
Tipo Dissertação;
Data de defesa 2024-03-06;
Agência de fomento Nenhuma;
Direitos de acesso openAccess;
URI http://repositorio.jesuita.org.br/handle/UNISINOS/13170;
Programa Programa de Pós-Graduação em Economia;


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar

Busca avançada

Navegar

Minha conta

Estatística