RDBU| Repositório Digital da Biblioteca da Unisinos

Pastlens: granting temporal consistency to multi-person pose estimation through longer receptive fields

Mostrar registro simples

Autor Reis, Eduardo Souza dos;
Lattes do autor http://lattes.cnpq.br/5591548693496776;
Orientador Righi, Rodrigo da Rosa;
Lattes do orientador http://lattes.cnpq.br/2332604239081900;
Instituição Universidade do Vale do Rio dos Sinos;
Sigla da instituição Unisinos;
País da instituição Brasil;
Instituto/Departamento Escola Politécnica;
Idioma pt_BR;
Título Pastlens: granting temporal consistency to multi-person pose estimation through longer receptive fields;
Resumo Estimar com precisão poses de vários indivíduos em cenas sem restrições beneficiaria muitas aplicações de visão computacional. Alguns exemplos: reidentificação de pessoas, interação humano-computador, análise comportamental e compreensão de cenas. Através dos avanços na arquitetura das redes convolucionais, detectores de partes do corpo são precisos e podem estimar o posicionamento das partes em imagens estáticas em tempo real (30 FPS), tanto em cenários com uma única pessoa, quanto com várias pessoas interagindo. No entanto, vários indivíduos na mesma cena impõem desafios adicionais, como oclusão inter-pessoas, partes do corpo truncadas, etapas adicionais de atribuição e mais fontes para contagem dupla. Nos últimos anos, muitos avanços contribuíram para esse objetivo e resolveram parcialmente alguns desafios. Mas, lidar com a oclusão inter-pessoas de longo prazo não é possível em imagens estáticas, devido à falta de atributos discriminativos para detectar o indivíduo ocluído. A maioria dos trabalhos revisados resolve esse problema coletando atributos de movimento que relacionam as partes do corpo em vários quadros do vídeo, explorando a consistência temporal. Normalmente, esses trabalhos consideram apenas quadros adjacentes para correlacionar esses atributos em tempo real ou processam o vídeo inteiro de antemão, para depois impor consistência global de maneira offline. Como a maioria das aplicações citadas dependem do processamento próximo ao tempo real, em conjunto com a análise de movimentos humanos complexos, que não são detectáveis em poucos quadros, propomos o modelo PastLens. Nosso principal objetivo é prover uma alternativa com melhor custo benefício do que a atual escolha entre o número de quadros a serem correlacionados e o tempo de estimação. O modelo impõe restrições espaço-temporais à própria rede convolucional, ao invés de depender de atributos temporais definidos de forma arbitrária. Nós alongamos o campo receptivo das camadas intermediárias para também conter o quadro anterior, forçando as camadas subsequentes a detectarem atributos que correlacionam as poses nos dois frames, sem perder a configuração das poses quadro-a-quadro. Além disso, nós não restringimos a representação destes atributos, permitindo que a mesma seja aprendida durante o processo de treinamento, juntamente com a estimativa de poses. Por estimativa e rastreamento de poses, nos referimos à localização e rastreamento da cabeça, membros e torso, seguidos da combinação dessas partes em poses que descrevam corretamente a cena. Nós não avaliaremos nossa abordagem em benchmarks para keypoints faciais ou reconhecimento de gestos. PoseTrack é a base de dados escolhida para avaliar nosso modelo, visto que ela fornece uma referência pública para estimação e rastreamento de poses em videos, além de um quadro de classificação, permitindo a comparação direta de nossos resultados com o estado-da-arte. Os resultados dos experimentos indicam que nosso modelo atinge acurácia competitiva nos vídeos com múltiplas pessoas, mas contém menos operações e é mais fácil de adaptar para modelos pré-treinados. Em relação as contribuições científicas, nós disponibilizamos uma alternativa eficiente para impor consistência temporal à estimativa de poses humanas usando apenas o aumento dos campos receptivos, deixando que a representação de atributos temporais seja definida pelos dados. Assim, nossos resultados podem levar a novas formas de explorar a consistência temporal na estimativa de poses humanas em vídeos.;
Abstract Accurately estimating poses of multiple individuals in unconstrained scenes would improve many vision-based applications. As a few examples: person re-identification, human-computer interaction, behavioral analysis and scene understanding. Through the advancements on convolutional networks’ research, body part detectors are now accurate and can estimate spatial positioning on still images in real-time (30 FPS), for both single- and multi-person scenarios. In turn, multiple individuals interacting in videos impose additional challenges, such as person-to-person occlusion, truncated body parts, additional assignment steps and more sources for double counting. In the last few years, many advancements contributed towards this goal and partially solved some of these challenges. Nonetheless, dealing with long-term person-toperson occlusion is not possible in still images, due to the lack of discriminative features to detect the occluded individual. Most reviewed works solve this problem by collecting motion features that correlate body parts across multiple video frames, exploring temporal dependency. Usually, these approaches either rely only on adjacent frames to keep it close to real-time or process the whole video beforehand, imposing global consistency in an offline manner. Since most of the cited applications rely on near real-time processing in combination with complex human motions, which are not depicted in just a couple frames, we propose the PastLens model. Our main objective is to provide a cost-efficient alternative to the tradeoff between the number of correlated frames and the estimation time. The model impose spatio-temporal constraints to the convolutional network itself, instead of relying on arbitrary designed temporal features. We stretch the receptive field of the mid layers to also include the previous frame, forcing further layers to detect features that correlate poses across the two frames, without losing the per-frame configuration. Moreover, we do not constraint the representation of such features, allowing it to be learned throughout the training process, alongside the pose estimation. By pose estimation and tracking, we refer to the localization and tracking overtime of head, limbs and torso, followed by the assembling of these body parts into poses that correctly encode the scene. We will not evaluate our approach on benchmarks for facial keypoints or gesture recognition. Pose- Track is the dataset of choice for both training and validation steps, since it provides a publicly available benchmark for estimating and tracking poses, in addition to a leaderboard that enable direct comparison of our results with its state-of-the-art counterparts. Experimental results indicate that our model can reach competitive accuracy on multi-person videos, while containing less operations and being easier to attach to pretrained networks. Regarding scientific contributions, we provide a cost-efficient alternative to impose temporal consistency to the HPE pipeline, through receptive field increase only, letting the temporal features’ representation to be learned from data. Hence, our results may lead towards novel ways of exploring temporal consistency for human pose estimation in videos.;
Palavras-chave Estimativa de poses humanas; Cenários com múltiplos indivíduos; Campos receptivos; Atributos espaço-temporais; Human pose estimation; Multi-person scenarios; Receptive fields; Spatiotemporal features;
Área(s) do conhecimento ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação;
Tipo Dissertação;
Data de defesa 2019-02-28;
Agência de fomento CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior;
Direitos de acesso openAccess;
URI http://www.repositorio.jesuita.org.br/handle/UNISINOS/8135;
Programa Programa de Pós-Graduação em Computação Aplicada;


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar

Busca avançada

Navegar

Minha conta

Estatística