Explorando algoritmos de aprendizado de máquina em textos legais antitruste

Autor	Almeida, Edilson Guedes de;
Lattes do autor	http://lattes.cnpq.br/2029044916270859;
Orientador	Kunst, Rafael;
Lattes do orientador	http://lattes.cnpq.br/1301443198267856;
Instituição	Universidade do Vale do Rio dos Sinos;
Sigla da instituição	Unisinos;
País da instituição	Brasil;
Instituto/Departamento	Escola de Gestão e Negócios;
Idioma	pt_BR;
Título	Explorando algoritmos de aprendizado de máquina em textos legais antitruste;
Resumo	Esta pesquisa explora a integração de algoritmos de aprendizado de máquina e PLN na análise antitruste do CADE no Brasil, utilizando a modelagem de tópicos para quantificar como a prevalência de tópicos pode auxiliar na previsão de decisões em casos de cartéis. O foco é identificar a técnica mais eficiente para examinar textos jurídicos do CADE, concentrando-se no entendimento do processo decisório e na avaliação de algoritmos relevantes, incluindo a investigação de hipóteses como a superioridade do modelo BERT, particularmente através do BERTopic, em identificar tópicos em textos legais antitruste. A metodologia abrange a coleta e análise de dados processuais e biográficos das autoridades do CADE, empregando várias ferramentas de modelagem, como NMF, LDA, CTM, Top2Vec e BERTopic, e métricas como NPMI, UMass Coherence, diversidade de tópicos e tempo de processamento, levando em conta considerações éticas. Os resultados mostram que o modelo BERTopic, especialmente nas configurações BERTimbau e DistilUSE, é notável em coerência, diversidade temática e eficiência temporal, tornando-se uma opção promissora para análises no contexto do CADE; a pesquisa enfatiza a importância da seleção criteriosa de modelos de PLN, variando desde o LDA, ideal para alta coerência e eficiência, até modelos baseados em embeddings, mais adequados para diversidade temática, e destaca as limitações encontradas, como os valores negativos de NPMI, sugerindo a necessidade de aperfeiçoamento na coerência dos tópicos e na precisão das configurações dos modelos. Além disso, a pesquisa explora o desempenho variado de diferentes técnicas de modelagem de tópicos e a inter-relação entre a sofisticação das técnicas e a necessidade de recursos computacionais, destacando a relevância dessas abordagens para as áreas da Economia e do Direito e sublinhando o valor da aplicação de métodos computacionais avançados nestes campos. Ao concluir, a tese ressalta a importância do pré-processamento de dados e do equilíbrio entre as técnicas de PLN e a disponibilidade de recursos computacionais, confirmando a eficácia do BERTopic na modelagem de tópicos em contextos jurídicos, apesar da necessidade de ajustes na coerência e nas configurações; e finalmente sugere a necessidade de futuras investigações para aprimorar as técnicas de PLN e modelagem de tópicos, visando ampliar sua aplicabilidade e relevância.;
Abstract	This research explores the integration of machine learning algorithms and NLP in antitrust analysis by CADE in Brazil, utilizing topic modeling to quantify how the prevalence of topics can assist in predicting decisions in cartel cases. The focus is on identifying the most efficient technique for examining legal texts from CADE, concentrating on understanding the decision-making process and evaluating relevant algorithms, including investigating hypotheses such as the potential superiority of the BERT model, particularly through BERTopic, in identifying topics in antitrust legal texts. The methodology encompasses the collection and analysis of procedural and biographical data from CADE authorities, employing various modeling tools like NMF, LDA, CTM, Top2Vec, and BERTopic, as well as metrics like NPMI, UMass Coherence, topic diversity, and processing time, taking ethical considerations into account. The results show that the BERTopic model, especially in BERTimbau and DistilUSE configurations, is notable in coherence, thematic diversity, and temporal efficiency, becoming a promising option for analyses in the context of CADE; the research emphasizes the importance of a careful selection of NLP models, ranging from LDA, ideal for high coherence and efficiency, to embedding-based models, more suitable for thematic diversity, and highlights limitations encountered, such as negative NPMI values, suggesting a need for improvement in topic coherence and precision of model settings. Moreover, the research explores the varied performance of different topic modeling techniques and the interplay between the sophistication of the techniques and the need for computational resources, highlighting the relevance of these approaches for the fields of Economics and Law and underscoring the value of applying advanced computational methods in these fields. In conclusion, the thesis emphasizes the importance of data preprocessing and the balance between NLP techniques and the availability of computational resources, confirming the effectiveness of BERTopic in topic modeling in legal contexts, despite the need for adjustments in coherence and configurations; and finally suggests the need for future investigations to enhance NLP and topic modeling techniques, aiming to expand their applicability and relevance.;
Palavras-chave	Modelagem de tópicos; Processamento de Linguagem Natural (PLN); Análise antitruste; Conselho Administrativo de Defesa da Concorrência (CADE); Aprendizado de máquina; Topic modeling; Natural Language Processing (NLP); Antitrust analysis; Administrative Council for Economic Defense (CADE); Machine learning;
Área(s) do conhecimento	ACCNPQ::Ciências Sociais Aplicadas::Economia;
Tipo	Dissertação;
Data de defesa	2024-03-06;
Agência de fomento	Nenhuma;
Direitos de acesso	openAccess;
URI	http://repositorio.jesuita.org.br/handle/UNISINOS/13170;
Programa	Programa de Pós-Graduação em Economia;

Arquivos deste item

Nome: Edilson Guedes de ...

Tamanho: 6.989Mb

Formato: PDF

Descrição: explorando_algoritimos

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

PPG Economia [23]
PPG Economia

Mostrar registro simples

Buscar

Navegar

Todo o repositório
- Comunidades e Coleções
Esta coleção

Minha conta

Estatística

Ver as estatísticas de uso

Explorando algoritmos de aprendizado de máquina em textos legais antitruste

Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Buscar

Navegar

Todo o repositório

Esta coleção

Minha conta

Estatística