RDBU| Repositório Digital da Biblioteca da Unisinos

Heimdall: an architecture for online machine learning through imbalanced data

Show simple item record

metadataTrad.dc.contributor.author Vargas, Vitor Werner de;
metadataTrad.dc.contributor.authorLattes http://lattes.cnpq.br/4358876704972743;
metadataTrad.dc.contributor.advisor Barbosa, Jorge Luis Victória;
metadataTrad.dc.contributor.advisorLattes http://lattes.cnpq.br/6754464380129137;
metadataTrad.dc.contributor.advisor-co1 Pereira, Paulo Ricardo da Silva;
metadataTrad.dc.contributor.advisor-co1Lattes http://lattes.cnpq.br/1997755245309923;
metadataTrad.dc.publisher Universidade do Vale do Rio dos Sinos;
metadataTrad.dc.publisher.initials Unisinos;
metadataTrad.dc.publisher.country Brasil;
metadataTrad.dc.publisher.department Escola Politécnica;
metadataTrad.dc.language pt_BR;
metadataTrad.dc.title Heimdall: an architecture for online machine learning through imbalanced data;
metadataTrad.dc.description.resumo Algoritmos de aprendizado de máquina têm sido crescentemente utilizado em áreas de aplicação que possuem dados disponíveis para automação de processos. No entanto, no caso de aplicações com dados desbalanceados, o processo de treinamento é desafiador, visto que algoritmos de aprendizado de máquina são desenvolvidos para aprender, intrinsicamente, de distribuições balanceadas. Esta pesquisa propõe Heimdall, uma arquitetura com diversos recursos para aprendizagem de máquina ativa através de dados desbalanceados. Projetado como um serviço para atendimento de requisições de previsões e análises, Heimdall serve aplicações existentes de sistemas externos, estendendo recursos de inteligência artificial e automatização de processos a aplicações tradicionais supervisionadas por especialistas. A arquitetura soluciona o desbalanceamento através de uma série de boas práticas compiladas em mapeamentos de trabalhos relacionados – como otimização do limiar de probabilidade, amostragem de alto desempenho e aprendizado em conjunto. Adicionalmente, Heimdall propõe e avalia a eficiência de funcionalidades inovadoras. Primeiramente, uma nova métrica de performance corrige o equilíbrio entre precision-recall de acordo com as necessidades da aplicação, aprimorando a otimização do limiar de probabilidade. Segundamente, a arquitetura automatiza processos de gerenciamento de dados e aprendizado de máquina, de forma independente, através de dois agentes reativos baseados em regras, os quais monitoram constantemente as mudanças de dados e degradação de performance do modelo para acionar processos. Esses agentes reativos compõem uma estratégia para eficiência adaptativa, habilitando uma performance melhor e mais estável ao sacrificar eficiência em condições iniciais de implantação, e mantendo excelentes performance e eficiência em condições normais da aplicação. Para avaliar a arquitetura de forma adequada, o presente estudo implementou um protótipo para uma aplicação conhecida contendo dados severamente desbalanceados – detecção de fraudes em cartões de crédito. Isolando a melhoria de cada funcionalidade proposta, a análise avaliou a performance no decorrer do tempo e performance global versus trabalhos relacionados através de cinco cenários. Especificamente, os resultados indicam que o protótipo alcançou performance excelente mesmo com poucas anomalias e melhorou a eficiência sistêmica no decorrer do tempo. Por fim, a performance global obteve resultados similares aos melhores resultados em trabalhos relacionados.;
metadataTrad.dc.description.abstract Machine Learning (ML) algorithms have been increasingly applied to domain areas where data is available for process automation. However, in the case of imbalanced data applications, the training process is challenging since ML algorithms intrinsically learn from balanced distributions. This research proposes Heimdall, a resourceful architecture for online ML through imbalanced data. Designed as a service for prediction and analysis requests, Heimdall serves existing applications from external systems, extending artificial intelligence capabilities and automated processes to traditional applications supervised by experts. The architecture focuses on efficiently solving imbalance and improving performance through a set of good practices compiled from mapped studies – such as probability threshold optimization, high-performance sampling, and ensemble learning. Furthermore, Heimdall proposes and evaluates the efficiency of novel functionalities. Firstly, a new performance metric corrects precision-recall balance according to the application’s needs, enhancing probability threshold optimization. Secondly, the architecture independently automates data management and training pipelines through two rule-based reactive agents constantly monitoring data changes and model degradation to trigger processes. These reactive agents compose a strategy for adaptive efficiency, enabling better and more stable performance by sacrificing efficiency in warm-up conditions, and maintaining excellent performance and efficiency in hot conditions. To adequately evaluate the architecture, this study implemented a prototype for one well-studied and severely imbalanced application – Credit Card Fraud Detection (CCFD). Isolating the improvement of each proposed functionality, the analysis evaluated performance over time and overall performance against related works through five scenarios. Namely, the results indicated that the prototype achieved excellent performance even with few anomalies, and improved systemic efficiency over time. Finally, the overall performance achieved comparable results to the best-performing related works.;
metadataTrad.dc.subject Dados desbalanceados; Pré-processamento; Amostragem; Aprendizado de máquina; Arquitetura de software; Agentes reativos; Imbalanced data; Preprocessing; Sampling; Machine learning; Software architecture; Reactive agents;
metadataTrad.dc.subject.cnpq ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
metadataTrad.dc.type Dissertação;
metadataTrad.dc.date.issued 2023-09-26;
metadataTrad.dc.description.sponsorship CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior;
metadataTrad.dc.rights openAccess;
metadataTrad.dc.identifier.uri http://repositorio.jesuita.org.br/handle/UNISINOS/13844;
metadataTrad.dc.publisher.program Programa de Pós-Graduação em Computação Aplicada;


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search

Advanced Search

Browse

My Account

Statistics