Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

Estimativa de pose

A estimativa de pose é a tarefa de usar um modelo de ML para estimar a pose de uma pessoa a partir de uma imagem ou vídeo, estimando as localizações espaciais das principais articulações do corpo (pontos-chave).

iniciar

Se você é novo no TensorFlow Lite e está trabalhando com Android ou iOS, explore os aplicativos de exemplo a seguir que podem ajudá-lo a começar.

Exemplo de Android Exemplo de iOS

Se você estiver familiarizado com as APIs do TensorFlow Lite , baixe o modelo inicial de estimativa de pose MoveNet e os arquivos de suporte.

Baixe o modelo inicial

Se você quiser experimentar a estimativa de pose em um navegador da Web, confira a Demo do TensorFlow JS .

Descrição do modelo

Como funciona

A estimativa de pose refere-se a técnicas de visão computacional que detectam figuras humanas em imagens e vídeos, para que se possa determinar, por exemplo, onde o cotovelo de alguém aparece em uma imagem. É importante estar ciente do fato de que a estimativa de pose apenas estima onde estão as principais articulações do corpo e não reconhece quem está em uma imagem ou vídeo.

Os modelos de estimativa de pose pegam uma imagem de câmera processada como entrada e emitem informações sobre pontos-chave. Os pontos-chave detectados são indexados por um ID de peça, com uma pontuação de confiança entre 0,0 e 1,0. A pontuação de confiança indica a probabilidade de existir um ponto-chave nessa posição.

Fornecemos implementação de referência de dois modelos de estimativa de pose do TensorFlow Lite:

MoveNet: o modelo de estimativa de pose de última geração disponível em dois sabores: Lighting e Thunder. Veja uma comparação entre esses dois na seção abaixo.
PoseNet: o modelo de estimativa de pose da geração anterior lançado em 2017.

As várias articulações do corpo detectadas pelo modelo de estimativa de pose são tabuladas abaixo:

Identidade	Papel
0	nariz
1	olho esquerdo
2	olho direito
3	orelha esquerda
4	orelha direita
5	ombro esquerdo
6	ombro direito
7	cotovelo esquerdo
8	cotovelo direito
9	pulso esquerdo
10	pulso direito
11	quadril esquerdo
12	quadril direito
13	joelho esquerdo
14	joelho direito
15	tornozelo esquerdo
16	Tornozelo direito

Um exemplo de saída é mostrado abaixo:

Animação mostrando a estimativa de pose

Referências de desempenho

O MoveNet está disponível em dois sabores:

O MoveNet.Lightning é menor, mais rápido, mas menos preciso que a versão Thunder. Ele pode ser executado em tempo real em smartphones modernos.
O MoveNet.Thunder é a versão mais precisa, mas também maior e mais lenta que o Lightning. É útil para os casos de uso que exigem maior precisão.

O MoveNet supera o PoseNet em uma variedade de conjuntos de dados, especialmente em imagens com imagens de ação de fitness. Portanto, recomendamos o uso do MoveNet em vez do PoseNet.

Os números de referência de desempenho são gerados com a ferramenta descrita aqui . Os números de precisão (mAP) são medidos em um subconjunto do conjunto de dados COCO no qual filtramos e recortamos cada imagem para conter apenas uma pessoa .

Modelo	Tamanho (MB)	mapa	Latência (ms)
Modelo	Tamanho (MB)	mapa	Pixel 5 - threads da CPU 4	Pixel 5 - GPU	Raspberry Pi 4 - CPU 4 threads
MoveNet.Thunder (FP16 quantizado)	12,6 MB	72,0	155ms	45ms	594 ms
MoveNet.Thunder (INT8 quantizado)	7,1 MB	68,9	100 ms	52ms	251 ms
MoveNet.Lightning (FP16 quantizado)	4,8 MB	63,0	60ms	25ms	186 ms
MoveNet.Lightning (INT8 quantizado)	2,9 MB	57,4	52ms	28ms	95ms
PoseNet (backbone MobileNetV1, FP32)	13,3 MB	45,6	80ms	40ms	338 ms

Leitura adicional e recursos

Confira esta postagem do blog para saber mais sobre a estimativa de pose usando o MoveNet e o TensorFlow Lite.
Confira esta postagem do blog para saber mais sobre estimativa de pose na web.
Confira este tutorial para saber como executar o MoveNet em Python usando um modelo do TensorFlow Hub.
Coral/EdgeTPU pode fazer com que a estimativa de pose seja executada muito mais rapidamente em dispositivos de borda. Consulte Modelos otimizados para EdgeTPU para obter mais detalhes.
Leia o artigo PoseNet aqui

Além disso, confira esses casos de uso de estimativa de pose.