Resumo:
A computação afetiva busca melhorar a interação homem-máquina, desenvolvendo ferramentas e técnicas para tornar os processos de decisão dos sistemas mais adaptados aos estados afetivos humanos. O reconhecimento automático de emoções através da face é uma área relativamente recente e que possui o potencial de tornar a interação com um sistema de computador uma experiência cada vez mais natural. Em especial nos ambientes inteligentes de aprendizagem, a detecção das emoções beneficia diretamente os estudantes ao usar as suas informações afetivas para perceber suas dificuldades, adaptar a intervenção pedagógica e engajá-lo. As emoções engajamento, confusão, frustração e tédio, comumente presentes em contexto de aprendizagem, são a chave para manutenção do engajamento do aluno e, por consequência, o sucesso
de seu aprendizado. O presente trabalho desenvolveu um modelo capaz de reconhecer através de vídeos da face as emoções engajamento, confusão, frustração e tédio experimentadas pelos estudantes em seções de interação com ambientes de aprendizagem. O modelo proposto se utiliza de redes neurais profundas para realizar a classificação em uma destas emoções, extraindo características estatísticas, temporais e espaciais dos vídeos fornecidos para treinamento, incluindo movimento dos olhos e Action Units. Considerando o modelo psicológico proposto por D’Mello de interação entre as emoções de aprendizagem, que considera que existe um fluxo de interação entre as emoções que determina a ordem em que essas se manifestam, o trabalho possui como principal contribuição a consideração do fluxo das emoções, bem como características de personalidade para detecção mais precisa das emoções. Diversas configurações de
modelos de aprendizado profundo de máquina foram testadas, e suas eficiências comparadas aos modelos mais recentemente desenvolvidos. Os resultados trazem evidências que considerar a sequência de emoções de aprendizagem e a personalidade dos estudantes como entrada nos modelos melhora a efetividade desses algoritmos. Utilizando o treinamento na base de dados DAiSEE o ganho de desempenho na métrica F1 foi de 26, 27% (de 0, 5122 para 0, 6468) quando incluído o histórico de emoções no modelo, e na rede treinada na base PAT2Math o ganho de desempenho foi de 1, 48% na métrica F1 (de 0, 8741 para 0, 8871) quando também incluído os traços de personalidade do indivíduo. Quando comparado ao estado-da-arte, o modelo obteve um desempenho 5, 6% superior utilizando a métrica F1, porém a acurácia teve uma perda de 4, 7%.