Autor |
Santos, Uélison Jean Lopes; |
Lattes do autor |
http://lattes.cnpq.br/4788790182323712; |
Orientador |
Righi, Rodrigo da Rosa; |
Lattes do orientador |
http://lattes.cnpq.br/2332604239081900; |
Instituição |
Universidade do Vale do Rio dos Sinos; |
Sigla da instituição |
Unisinos; |
País da instituição |
Brasil; |
Instituto/Departamento |
Escola Politécnica; |
Idioma |
pt_BR; |
Título |
Brain action: a brain-inspired human action reognition model based on object recognition; |
Resumo |
Uma grande variedade de aplicações de software que requerem informações de reconhecimento de ações humanas (HAR) como entrada. Um tópico que é aplicado em diversas áreas se tornou prevalente recentemente por conta de aplicações do mundo real que emergem rapidamente. Muitos trabalhos acreditavam que as ações humanas podiam ser entendidas apenas observando as poses dos atores. Vários autores introduziram métodos para modelar aparências e poses humanas, produzindo características mais robustas para utilizar no reconhecimento. No entanto, várias ações podem ser executadas com poses comparáveis, e essas estratégias ignoram esta característica, o que os torna menos aplicáveis ao reconhecimento de ações complexas. Embora várias propostas já tenham sido concebidas, HAR é um problema que ainda está longe de ter uma solução definitiva. As soluções concentram-se em explorar diferentes técnicas para obter recursos e permitir que algoritmos de aprendizado de máquina identifique as ações. No entanto, a variedade de ações humanas possíveis, o pequeno número de exemplos de conjuntos de dados e a complexidade da tarefa significam que vários estudos ainda são necessários para se chegar a uma solução final. Simultaneamente, enquanto tentamos fazer um computador entender as ações em vídeos, os neurocientistas estão tentando entender como o cérebro humano reconhece as atividades. A análise mostra que o reconhecimento de objetos é uma tarefa difícil, até mesmo para o cérebro. No entanto, estudos sugerem que o algoritmo do cérebro é relativamente simples e provavelmente processa a entrada visual apenas uma vez. Nesta tese, exploramos o que sabemos até agora sobre como o cérebro humano reconhece ações para simular esse mesmo comportamento em um computador. Um modelo que se mostra robusto pode servir de base para o desenvolvimento de soluções nos mais diversos ramos. Para isso, estudamos as áreas de Neurociência e Fisiologia para obter informações sobre o funcionamento do cérebro humano. A partir dessas informações, desenvolvemos o modelo Brain Action para simular esse comportamento e introduzimos um fluxo de trabalho de algoritmo para implementar esse modelo em um computador. Durante o desenvolvimento da pesquisa, procuramos entender como outras propostas com métodos semelhantes resolvem o mesmo problema, bem como soluções que exploram outras técnicas distintas. Reunimos esse conhecimento para propor um modelo capaz de explorar técnicas que já são aceitas no estado da arte com o reconhecimento das ações pela mente humana. Esta proposta teve como objetivo desenvolver um modelo quetenha como entrada vídeos RGB, e por meio da identificação do posicionamento e movimentos dos elementos nas cenas, e utilizando apenas a relação dessas informações, seja capaz de reconhecer ações humanas, visando aplicações em diversos domínios. Seguimos essa pesquisa implementando o modelo em uma tarefa HAR de operações cirúrgicas desafiadoras, avaliandoo com as métricas de última geração. Construímos nosso conjunto de dados cirúrgicos com sete classes diferentes durante esse processo, testamos o modelo com três métodos de classificação
diferentes de aprendizado de máquina e alcançamos 44,1 % de ações classificadas corretamente aplicando validação cross-fold. Nossas contribuições são três: (I) Um novo modelo HAR de inspiração biológica, (II) um novo projeto de extração de informações de movimento e (III) uma implementação de HAR para o cenário de reconhecimento de ação cirúrgica.; |
Abstract |
A great variety of applications require HAR (Human Action Recognition) information as
input. A topic that is applied in such various areas becomes particularly prevalent recently because of their explosively emerging real-world applications. Many works tried to understand actions by only observing the actor’s poses, introducing methods to model human appearances and poses, trying to more robust features. However, several actions may be performed with comparable postures, and these strategies ignored features, which made them less applicable to recognize complex actions. Although several proposals have already been submitted, HAR is a problem that is still far from having a definitive solution. The solutions focus on exploring different techniques for getting features and enabling machine learning algorithms to identify actions. However, the variety of possible human actions, the small number of dataset examples, and the complexity of the task mean that several studies are still required to reach a final
solution. Simultaneously, as we try to make a computer understand actions in videos, neuroscientists are trying to understand how the human brain recognizes activities. The analysis shows that object recognition is a hard task, even to the brain. Although, studies suggest that the brain’s algorithm is relatively simple and most likely processes the visual input only once. In this thesis, we explore what we know so far about how the human brain recognizes actions to simulate this same behavior on a computer. A model that proves to be robust can serve as the basis for developing solutions in the most varied branches. For this, we studied the Neuroscience and Physiology areas for information about how the human brain works. From this information, we developed the Brain Action model to simulate this behavior and introduced an algorithm workflow to implement this model on a computer. During the development of the research, we tried to understand how other proposals with similar methods solve the same problem, as well as solutions that explore other different techniques. We have gathered this knowledge to propose a model that can explore techniques that are already accepted in state of the art with the human mind’s recognition of actions. This proposal aimed to develop a model
that has as input RGB videos, and by identifying the positioning and movements of the elements in the scenes, and using only the relationship of this information, be able to recognize human actions, targeting applications in various domains. We followed this research by implementing the model in a challenging surgical operations HAR task, evaluating it with the state-of-the-art metrics. We built our surgical dataset with seven different classes during this process, tested the model with three different machine learning classification methods, and achieved 44.1% of correctly classified actions applying cross-validation. Our contributions are threefold: (I) A new biological inspired HAR model, (II) a new movement feature extraction design, and (III) a
HAR implementation for surgery action recognition scenario.; |
Palavras-chave |
Reconhecimento de ações humanas; Reconhecimento de objetos; Reconhecimento de padrões; Aprendizado de máquina; Human action recognition; Object recognition; Pattern recognition; Machine learning; |
Área(s) do conhecimento |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação; |
Tipo |
Dissertação; |
Data de defesa |
2020-09-27; |
Agência de fomento |
UNISINOS - Universidade do Vale do Rio dos Sinos; |
Direitos de acesso |
openAccess; |
URI |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/9537; |
Programa |
Programa de Pós-Graduação em Computação Aplicada; |