Autor |
Rosa, Michele Jackeline Andressa; |
Lattes do autor |
http://lattes.cnpq.br/8775896020112679; |
Orientador |
Rigo, Sandro José; |
Lattes do orientador |
http://lattes.cnpq.br/3914159735707328; |
Co-orientador |
Barbosa, Jorge Luis Victória; |
Lattes do co-orientador |
http://lattes.cnpq.br/6754464380129137; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
pt_BR; |
Título |
Um modelo preditivo com base na integração de dados numéricos e textuais: um estudo de caso no mercado acionário brasileiro; |
Resumo |
A análise dos movimentos e preços do mercado brasileiro de ações tem sido amplamente
estudada, com um crescimento recente no uso de Inteligência Artificial para essa finalidade. Tradicionalmente, as abordagens preditivas baseiam-se em dados históricos numéricos, com ênfase na análise gráfica. No entanto, essas técnicas não exploraram plenamente o potencial dos dados fundamentalistas, extraídos de relatórios técnicos e balanços contábeis, nem aproveitaram uma grande quantidade de informações em tempo real disponibilizadas por mídias sociais e portais de notícias. Este estudo teve como objetivo identificar a abordagem mais eficaz para aumentar a precisão das previsões de preços de ações por meio da integração de dados numéricos e dados textuais, aplicados a um conjunto de ativos do mercado acionários brasileiro. Diferentes técnicas e modelos de aprendizado profundo foram empregados, e a análise da literatura evidenciou lacunas na integração de dados heterogêneos. Para suprir essas limitações, propôs-se uma abordagem que combina dados numéricos e textuais, avaliando os impactos dessa integração na previsão de preços e movimentos de ações. Os dados textuais incluem
informações contábeis, postagens no X (antigo Twitter), notícias financeiras e econômicas
publicadas na web. Os dados numéricos consistem em séries históricas de preços e volume das ações, variáveis macroeconômicas, além do índice de buscas do Google trends. O modelo proposto permite avaliar avanços no tratamento e integração de dados numéricos e textuais, tendo em vista a identificação de movimentos e preços de ações no mercado brasileiro. Foram realizados estudos para explorar o comportamento dos dados numéricos e textuais. Também foram realizados experimentos implementando a abordagem proposta, que permitiram observar um ganho percentual na predição quando comparados com a análise apenas numérica. Os resultados revelaram que a inclusão de tweets, notícias (Google News) e indicadores técnicos, juntamente com dados de preços e volume das ações, melhoraram a precisão das correções. Comparando os modelos testados, o LSTM apresentou melhor desempenho do que o DNN. Os valores de RMSE coletados foram: PETR4 (0,0114; 0,0111; 0,0210), VALE3 (0,0106; 0,0128; 0,0452), BBDC4 (0,0119; 0,0112; 0,0234) e ITUB4 (0,0117; 0,0119). Conclui-se que a integração de dados heterogêneos pode melhorar significativamente a previsão de preços de ações, contribuindo para o desenvolvimento de estratégias mais eficazes no mercado financeiro.; |
Abstract |
The analysis of movements and prices in the Brazilian stock market has been widely studied, with a recent increase in the use of Artificial Intelligence for this purpose.
Traditionally, predictive approaches rely on historical numerical data, with an emphasis on
graphical analysis. However, these techniques have not fully explored the potential of
fundamental data extracted from technical reports and financial statements, nor have they
taken advantage of the vast amount of real-time information available through social media and news portals. This study aimed to identify the most effective approach to improving the accuracy of stock price predictions by integrating numerical and textual data, applied to a set of assets in the Brazilian stock market. Various deep learning techniques and models were employed, and the literature review revealed gaps in integrating heterogeneous data. To address these limitations, an approach was proposed that combines numerical and textual data, assessing the impact of this integration on stock price and movement predictions. The textual data includes financial statement information, posts on X (formerly Twitter), and financial and economic news published online. The numerical data consists of historical stock price and volume series, macroeconomic variables, and the Google Trends search index. The proposed model allows for an evaluation of advancements in the processing and integration of numerical and textual data to identify stock price movements in the Brazilian market. Studies were conducted to explore the behavior of numerical and textual data. Additionally, experiments implementing the proposed approach demonstrated a percentage gain in prediction accuracy compared to purely numerical analysis. The results revealed that the inclusion of tweets, news
(Google News), and technical indicators, along with stock price and volume data, improved forecasting accuracy. When comparing the tested models, the LSTM outperformed the DNN. The collected RMSE values were: PETR4 (0.0114; 0.0111; 0.0210), VALE3 (0.0106; 0.0128; 0.0452), BBDC4 (0.0119; 0.0112; 0.0234), and ITUB4 (0.0117; 0.0119). It is concluded that the integration of heterogeneous data can significantly enhance stock price predictions, contributing to the development of more effective strategies in the financial market.; |
Palavras-chave |
Mercado financeiro; Aprendizagem profundo; Processamento de linguagem natural,; Bolsa de valores (B3); Dados heterogêneos; Financial market; Deep learning; Natural language processing; Stock exchange (B3); Heterogeneous data; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Tese; |
Data de defesa |
2025-02-06; |
Agência de fomento |
Nenhuma; |
Direitos de acesso |
openAccess; |
URI |
http://repositorio.jesuita.org.br/handle/UNISINOS/13565; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |