Resumo:
Esta pesquisa explora a integração de algoritmos de aprendizado de máquina e PLN na análise antitruste do CADE no Brasil, utilizando a modelagem de tópicos para quantificar como a prevalência de tópicos pode auxiliar na previsão de decisões em casos de cartéis. O foco é identificar a técnica mais eficiente para examinar textos jurídicos do CADE, concentrando-se no entendimento do processo decisório e na avaliação de algoritmos relevantes, incluindo a investigação de hipóteses como a superioridade do modelo BERT, particularmente através do BERTopic, em identificar tópicos em textos legais antitruste. A metodologia abrange a coleta e análise de dados processuais e biográficos das autoridades do CADE, empregando várias ferramentas de modelagem, como NMF, LDA, CTM, Top2Vec e BERTopic, e métricas como NPMI, UMass Coherence, diversidade de tópicos e tempo de processamento, levando em conta considerações éticas. Os resultados mostram que o modelo BERTopic, especialmente nas configurações BERTimbau e DistilUSE, é notável em coerência, diversidade temática e eficiência temporal, tornando-se uma opção promissora para análises no contexto do CADE; a pesquisa enfatiza a importância da seleção criteriosa de modelos de PLN, variando desde o LDA, ideal para alta coerência e eficiência, até modelos baseados em embeddings, mais adequados para diversidade temática, e destaca as limitações encontradas, como os valores negativos de NPMI, sugerindo a necessidade de aperfeiçoamento na coerência dos tópicos e na precisão das configurações dos modelos. Além disso, a pesquisa explora o desempenho variado de diferentes técnicas de modelagem de tópicos e a inter-relação entre a sofisticação das técnicas e a necessidade de recursos computacionais, destacando a relevância dessas abordagens para as áreas da Economia e do Direito e sublinhando o valor da aplicação de métodos computacionais avançados nestes campos. Ao concluir, a tese ressalta a importância do pré-processamento de dados e do equilíbrio entre as técnicas de PLN e a disponibilidade de recursos computacionais, confirmando a eficácia do BERTopic na modelagem de tópicos em contextos jurídicos, apesar da necessidade de ajustes na coerência e nas configurações; e finalmente sugere a necessidade de futuras investigações para aprimorar as técnicas de PLN e modelagem de tópicos, visando ampliar sua aplicabilidade e relevância.