Um modelo preditivo com base na integração de dados numéricos e textuais: um estudo de caso no mercado acionário brasileiro

Autor	Rosa, Michele Jackeline Andressa;
Lattes do autor	http://lattes.cnpq.br/8775896020112679;
Orientador	Rigo, Sandro José;
Lattes do orientador	http://lattes.cnpq.br/3914159735707328;
Co-orientador	Barbosa, Jorge Luis Victória;
Lattes do co-orientador	http://lattes.cnpq.br/6754464380129137;
Instituição	Universidade do Vale do Rio dos Sinos;
Sigla da instituição	Unisinos;
País da instituição	Brasil;
Instituto/Departamento	Escola Politécnica;
Idioma	pt_BR;
Título	Um modelo preditivo com base na integração de dados numéricos e textuais: um estudo de caso no mercado acionário brasileiro;
Resumo	A análise dos movimentos e preços do mercado brasileiro de ações tem sido amplamente estudada, com um crescimento recente no uso de Inteligência Artificial para essa finalidade. Tradicionalmente, as abordagens preditivas baseiam-se em dados históricos numéricos, com ênfase na análise gráfica. No entanto, essas técnicas não exploraram plenamente o potencial dos dados fundamentalistas, extraídos de relatórios técnicos e balanços contábeis, nem aproveitaram uma grande quantidade de informações em tempo real disponibilizadas por mídias sociais e portais de notícias. Este estudo teve como objetivo identificar a abordagem mais eficaz para aumentar a precisão das previsões de preços de ações por meio da integração de dados numéricos e dados textuais, aplicados a um conjunto de ativos do mercado acionários brasileiro. Diferentes técnicas e modelos de aprendizado profundo foram empregados, e a análise da literatura evidenciou lacunas na integração de dados heterogêneos. Para suprir essas limitações, propôs-se uma abordagem que combina dados numéricos e textuais, avaliando os impactos dessa integração na previsão de preços e movimentos de ações. Os dados textuais incluem informações contábeis, postagens no X (antigo Twitter), notícias financeiras e econômicas publicadas na web. Os dados numéricos consistem em séries históricas de preços e volume das ações, variáveis macroeconômicas, além do índice de buscas do Google trends. O modelo proposto permite avaliar avanços no tratamento e integração de dados numéricos e textuais, tendo em vista a identificação de movimentos e preços de ações no mercado brasileiro. Foram realizados estudos para explorar o comportamento dos dados numéricos e textuais. Também foram realizados experimentos implementando a abordagem proposta, que permitiram observar um ganho percentual na predição quando comparados com a análise apenas numérica. Os resultados revelaram que a inclusão de tweets, notícias (Google News) e indicadores técnicos, juntamente com dados de preços e volume das ações, melhoraram a precisão das correções. Comparando os modelos testados, o LSTM apresentou melhor desempenho do que o DNN. Os valores de RMSE coletados foram: PETR4 (0,0114; 0,0111; 0,0210), VALE3 (0,0106; 0,0128; 0,0452), BBDC4 (0,0119; 0,0112; 0,0234) e ITUB4 (0,0117; 0,0119). Conclui-se que a integração de dados heterogêneos pode melhorar significativamente a previsão de preços de ações, contribuindo para o desenvolvimento de estratégias mais eficazes no mercado financeiro.;
Abstract	The analysis of movements and prices in the Brazilian stock market has been widely studied, with a recent increase in the use of Artificial Intelligence for this purpose. Traditionally, predictive approaches rely on historical numerical data, with an emphasis on graphical analysis. However, these techniques have not fully explored the potential of fundamental data extracted from technical reports and financial statements, nor have they taken advantage of the vast amount of real-time information available through social media and news portals. This study aimed to identify the most effective approach to improving the accuracy of stock price predictions by integrating numerical and textual data, applied to a set of assets in the Brazilian stock market. Various deep learning techniques and models were employed, and the literature review revealed gaps in integrating heterogeneous data. To address these limitations, an approach was proposed that combines numerical and textual data, assessing the impact of this integration on stock price and movement predictions. The textual data includes financial statement information, posts on X (formerly Twitter), and financial and economic news published online. The numerical data consists of historical stock price and volume series, macroeconomic variables, and the Google Trends search index. The proposed model allows for an evaluation of advancements in the processing and integration of numerical and textual data to identify stock price movements in the Brazilian market. Studies were conducted to explore the behavior of numerical and textual data. Additionally, experiments implementing the proposed approach demonstrated a percentage gain in prediction accuracy compared to purely numerical analysis. The results revealed that the inclusion of tweets, news (Google News), and technical indicators, along with stock price and volume data, improved forecasting accuracy. When comparing the tested models, the LSTM outperformed the DNN. The collected RMSE values were: PETR4 (0.0114; 0.0111; 0.0210), VALE3 (0.0106; 0.0128; 0.0452), BBDC4 (0.0119; 0.0112; 0.0234), and ITUB4 (0.0117; 0.0119). It is concluded that the integration of heterogeneous data can significantly enhance stock price predictions, contributing to the development of more effective strategies in the financial market.;
Palavras-chave	Mercado financeiro; Aprendizagem profundo; Processamento de linguagem natural,; Bolsa de valores (B3); Dados heterogêneos; Financial market; Deep learning; Natural language processing; Stock exchange (B3); Heterogeneous data;
Área(s) do conhecimento	ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
Tipo	Tese;
Data de defesa	2025-02-06;
Agência de fomento	Nenhuma;
Direitos de acesso	openAccess;
URI	http://repositorio.jesuita.org.br/handle/UNISINOS/13565;
Programa	Programa de Pós-Graduação em Computação Aplicada;

Arquivos deste item

Nome: Michele Jackeline ...

Tamanho: 2.760Mb

Formato: PDF

Descrição: modelo_preditivo

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

PPG Computação Aplicada [41]
PPG Computação Aplicada

Mostrar registro simples

Buscar

Navegar

Todo o repositório
- Comunidades e Coleções
Esta coleção

Minha conta

Estatística

Ver as estatísticas de uso

Um modelo preditivo com base na integração de dados numéricos e textuais: um estudo de caso no mercado acionário brasileiro

Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Buscar

Navegar

Todo o repositório

Esta coleção

Minha conta

Estatística