Abstract:
Uma grande variedade de aplicações de software que requerem informações de reconhecimento de ações humanas (HAR) como entrada. Um tópico que é aplicado em diversas áreas se tornou prevalente recentemente por conta de aplicações do mundo real que emergem rapidamente. Muitos trabalhos acreditavam que as ações humanas podiam ser entendidas apenas observando as poses dos atores. Vários autores introduziram métodos para modelar aparências e poses humanas, produzindo características mais robustas para utilizar no reconhecimento. No entanto, várias ações podem ser executadas com poses comparáveis, e essas estratégias ignoram esta característica, o que os torna menos aplicáveis ao reconhecimento de ações complexas. Embora várias propostas já tenham sido concebidas, HAR é um problema que ainda está longe de ter uma solução definitiva. As soluções concentram-se em explorar diferentes técnicas para obter recursos e permitir que algoritmos de aprendizado de máquina identifique as ações. No entanto, a variedade de ações humanas possíveis, o pequeno número de exemplos de conjuntos de dados e a complexidade da tarefa significam que vários estudos ainda são necessários para se chegar a uma solução final. Simultaneamente, enquanto tentamos fazer um computador entender as ações em vídeos, os neurocientistas estão tentando entender como o cérebro humano reconhece as atividades. A análise mostra que o reconhecimento de objetos é uma tarefa difícil, até mesmo para o cérebro. No entanto, estudos sugerem que o algoritmo do cérebro é relativamente simples e provavelmente processa a entrada visual apenas uma vez. Nesta tese, exploramos o que sabemos até agora sobre como o cérebro humano reconhece ações para simular esse mesmo comportamento em um computador. Um modelo que se mostra robusto pode servir de base para o desenvolvimento de soluções nos mais diversos ramos. Para isso, estudamos as áreas de Neurociência e Fisiologia para obter informações sobre o funcionamento do cérebro humano. A partir dessas informações, desenvolvemos o modelo Brain Action para simular esse comportamento e introduzimos um fluxo de trabalho de algoritmo para implementar esse modelo em um computador. Durante o desenvolvimento da pesquisa, procuramos entender como outras propostas com métodos semelhantes resolvem o mesmo problema, bem como soluções que exploram outras técnicas distintas. Reunimos esse conhecimento para propor um modelo capaz de explorar técnicas que já são aceitas no estado da arte com o reconhecimento das ações pela mente humana. Esta proposta teve como objetivo desenvolver um modelo quetenha como entrada vídeos RGB, e por meio da identificação do posicionamento e movimentos dos elementos nas cenas, e utilizando apenas a relação dessas informações, seja capaz de reconhecer ações humanas, visando aplicações em diversos domínios. Seguimos essa pesquisa implementando o modelo em uma tarefa HAR de operações cirúrgicas desafiadoras, avaliandoo com as métricas de última geração. Construímos nosso conjunto de dados cirúrgicos com sete classes diferentes durante esse processo, testamos o modelo com três métodos de classificação
diferentes de aprendizado de máquina e alcançamos 44,1 % de ações classificadas corretamente aplicando validação cross-fold. Nossas contribuições são três: (I) Um novo modelo HAR de inspiração biológica, (II) um novo projeto de extração de informações de movimento e (III) uma implementação de HAR para o cenário de reconhecimento de ação cirúrgica.