Resumo:
Estimar com precisão poses de vários indivíduos em cenas sem restrições beneficiaria muitas aplicações de visão computacional. Alguns exemplos: reidentificação de pessoas, interação humano-computador, análise comportamental e compreensão de cenas. Através dos avanços na arquitetura das redes convolucionais, detectores de partes do corpo são precisos e podem estimar o posicionamento das partes em imagens estáticas em tempo real (30 FPS), tanto em cenários com uma única pessoa, quanto com várias pessoas interagindo. No entanto, vários indivíduos na mesma cena impõem desafios adicionais, como oclusão inter-pessoas, partes do corpo truncadas, etapas adicionais de atribuição e mais fontes para contagem dupla. Nos últimos anos, muitos avanços contribuíram para esse objetivo e resolveram parcialmente alguns desafios. Mas, lidar com a oclusão inter-pessoas de longo prazo não é possível em imagens estáticas, devido à falta de atributos discriminativos para detectar o indivíduo ocluído. A maioria dos trabalhos revisados resolve esse problema coletando atributos de movimento que relacionam as partes do corpo em vários quadros do vídeo, explorando a consistência temporal. Normalmente, esses trabalhos consideram apenas quadros adjacentes para correlacionar esses atributos em tempo real ou processam o vídeo inteiro de antemão, para depois impor consistência global de maneira offline. Como a maioria das aplicações citadas dependem do processamento próximo ao tempo real, em conjunto com a análise de movimentos humanos complexos, que não são detectáveis em poucos quadros, propomos o modelo PastLens. Nosso principal objetivo é prover uma alternativa com melhor custo benefício do que a atual escolha entre o número de quadros a serem correlacionados e o tempo de estimação. O modelo impõe restrições espaço-temporais à própria rede convolucional, ao invés de depender de atributos temporais definidos de forma arbitrária. Nós alongamos o campo receptivo das camadas intermediárias para também conter o quadro anterior, forçando as camadas subsequentes a detectarem atributos que correlacionam as poses nos dois frames, sem perder a configuração das poses quadro-a-quadro. Além disso, nós não restringimos a representação destes atributos, permitindo que a mesma seja aprendida durante o processo de treinamento, juntamente com a estimativa de poses. Por estimativa e rastreamento de poses, nos referimos à localização e rastreamento da cabeça, membros e torso, seguidos da combinação dessas partes em poses que descrevam corretamente a cena. Nós não avaliaremos nossa abordagem em benchmarks para keypoints faciais ou reconhecimento de gestos. PoseTrack é a base de dados escolhida para avaliar nosso modelo, visto que ela fornece uma referência pública para estimação e rastreamento de poses em videos, além de um quadro de classificação, permitindo a comparação direta de nossos resultados com o estado-da-arte. Os resultados dos experimentos indicam que nosso modelo atinge acurácia competitiva nos vídeos com múltiplas pessoas, mas contém menos operações e é mais fácil de adaptar para modelos pré-treinados. Em relação as contribuições científicas, nós disponibilizamos uma alternativa eficiente para impor consistência temporal à estimativa de poses humanas usando apenas o aumento dos campos receptivos, deixando que a representação de atributos temporais seja definida pelos dados. Assim, nossos resultados podem levar a novas formas de explorar a consistência temporal na estimativa de poses humanas em vídeos.