Resumo:
A análise dos movimentos e preços do mercado brasileiro de ações tem sido amplamente
estudada, com um crescimento recente no uso de Inteligência Artificial para essa finalidade. Tradicionalmente, as abordagens preditivas baseiam-se em dados históricos numéricos, com ênfase na análise gráfica. No entanto, essas técnicas não exploraram plenamente o potencial dos dados fundamentalistas, extraídos de relatórios técnicos e balanços contábeis, nem aproveitaram uma grande quantidade de informações em tempo real disponibilizadas por mídias sociais e portais de notícias. Este estudo teve como objetivo identificar a abordagem mais eficaz para aumentar a precisão das previsões de preços de ações por meio da integração de dados numéricos e dados textuais, aplicados a um conjunto de ativos do mercado acionários brasileiro. Diferentes técnicas e modelos de aprendizado profundo foram empregados, e a análise da literatura evidenciou lacunas na integração de dados heterogêneos. Para suprir essas limitações, propôs-se uma abordagem que combina dados numéricos e textuais, avaliando os impactos dessa integração na previsão de preços e movimentos de ações. Os dados textuais incluem
informações contábeis, postagens no X (antigo Twitter), notícias financeiras e econômicas
publicadas na web. Os dados numéricos consistem em séries históricas de preços e volume das ações, variáveis macroeconômicas, além do índice de buscas do Google trends. O modelo proposto permite avaliar avanços no tratamento e integração de dados numéricos e textuais, tendo em vista a identificação de movimentos e preços de ações no mercado brasileiro. Foram realizados estudos para explorar o comportamento dos dados numéricos e textuais. Também foram realizados experimentos implementando a abordagem proposta, que permitiram observar um ganho percentual na predição quando comparados com a análise apenas numérica. Os resultados revelaram que a inclusão de tweets, notícias (Google News) e indicadores técnicos, juntamente com dados de preços e volume das ações, melhoraram a precisão das correções. Comparando os modelos testados, o LSTM apresentou melhor desempenho do que o DNN. Os valores de RMSE coletados foram: PETR4 (0,0114; 0,0111; 0,0210), VALE3 (0,0106; 0,0128; 0,0452), BBDC4 (0,0119; 0,0112; 0,0234) e ITUB4 (0,0117; 0,0119). Conclui-se que a integração de dados heterogêneos pode melhorar significativamente a previsão de preços de ações, contribuindo para o desenvolvimento de estratégias mais eficazes no mercado financeiro.