MoveNet: Mô hình phát hiện tư thế cực nhanh và chính xác.

MoveNet là một nhanh cực và mô hình chính xác mà phát hiện 17 keypoint của một cơ thể. Mô hình này được cung cấp trên TF Hub với hai biến thể, được gọi là Lightning và Thunder. Lightning dành cho các ứng dụng quan trọng về độ trễ, trong khi Thunder dành cho các ứng dụng yêu cầu độ chính xác cao. Cả hai mô hình đều chạy nhanh hơn thời gian thực (30+ FPS) trên hầu hết các máy tính để bàn, máy tính xách tay và điện thoại hiện đại, điều này chứng tỏ rất quan trọng đối với các ứng dụng thể dục trực tiếp, sức khỏe và sức khỏe.

Colab này sẽ hướng dẫn bạn chi tiết về cách tải MoveNet và chạy suy luận trên hình ảnh đầu vào và video bên dưới.

Ước tính tư thế người với MoveNet

Thư viện trực quan hóa & Nhập

pip install -q imageio
pip install -q opencv-python
pip install -q git+
import tensorflow as tf
import tensorflow_hub as hub
from tensorflow_docs.vis import embed
import numpy as np
import cv2

# Import matplotlib libraries
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
import matplotlib.patches as patches

# Some modules to display an animation using imageio.
import imageio
from IPython.display import HTML, display

Chức năng trợ giúp để trực quan hóa

Tải mô hình từ trung tâm TF

model_name = "movenet_lightning"

if "tflite" in model_name:
  if "movenet_lightning_f16" in model_name:
    !wget -q -O model.tflite
    input_size = 192
  elif "movenet_thunder_f16" in model_name:
    !wget -q -O model.tflite
    input_size = 256
  elif "movenet_lightning_int8" in model_name:
    !wget -q -O model.tflite
    input_size = 192
  elif "movenet_thunder_int8" in model_name:
    !wget -q -O model.tflite
    input_size = 256
    raise ValueError("Unsupported model name: %s" % model_name)

  # Initialize the TFLite interpreter
  interpreter = tf.lite.Interpreter(model_path="model.tflite")

  def movenet(input_image):
    """Runs detection on an input image.

      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    # TF Lite format expects tensor type of uint8.
    input_image = tf.cast(input_image, dtype=tf.uint8)
    input_details = interpreter.get_input_details()
    output_details = interpreter.get_output_details()
    interpreter.set_tensor(input_details[0]['index'], input_image.numpy())
    # Invoke inference.
    # Get the model prediction.
    keypoints_with_scores = interpreter.get_tensor(output_details[0]['index'])
    return keypoints_with_scores

  if "movenet_lightning" in model_name:
    module = hub.load("")
    input_size = 192
  elif "movenet_thunder" in model_name:
    module = hub.load("")
    input_size = 256
    raise ValueError("Unsupported model name: %s" % model_name)

  def movenet(input_image):
    """Runs detection on an input image.

      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    model = module.signatures['serving_default']

    # SavedModel format expects tensor type of int32.
    input_image = tf.cast(input_image, dtype=tf.int32)
    # Run model inference.
    outputs = model(input_image)
    # Output is a [1, 1, 17, 3] tensor.
    keypoints_with_scores = outputs['output_0'].numpy()
    return keypoints_with_scores

Ví dụ về hình ảnh đơn

Phiên này cho thấy ví dụ làm việc minumum của chạy mô hình trên một hình ảnh duy nhất để dự đoán 17 keypoint con người.

Tải hình ảnh đầu vào

curl -o input_image.jpeg --silent
# Load the input image.
image_path = 'input_image.jpeg'
image =
image = tf.image.decode_jpeg(image)

Chạy suy luận

# Resize and pad the image to keep the aspect ratio and fit the expected size.
input_image = tf.expand_dims(image, axis=0)
input_image = tf.image.resize_with_pad(input_image, input_size, input_size)

# Run model inference.
keypoints_with_scores = movenet(input_image)

# Visualize the predictions with image.
display_image = tf.expand_dims(image, axis=0)
display_image = tf.cast(tf.image.resize_with_pad(
    display_image, 1280, 1280), dtype=tf.int32)
output_overlay = draw_prediction_on_image(
    np.squeeze(display_image.numpy(), axis=0), keypoints_with_scores)

plt.figure(figsize=(5, 5))
_ = plt.axis('off')


Ví dụ về Video (Chuỗi hình ảnh)

Phần này trình bày cách áp dụng tính năng cắt xén thông minh dựa trên các phát hiện từ khung hình trước đó khi đầu vào là một chuỗi các khung hình. Điều này cho phép mô hình tập trung sự chú ý và nguồn lực vào đối tượng chính, dẫn đến chất lượng dự đoán tốt hơn nhiều mà không phải hy sinh tốc độ.

Thuật toán cắt xén

Tải trình tự hình ảnh đầu vào

wget -q -O dance.gif
# Load the input image.
image_path = 'dance.gif'
image =
image = tf.image.decode_gif(image)

Chạy suy luận với thuật toán cắt xén

# Load the input image.
num_frames, image_height, image_width, _ = image.shape
crop_region = init_crop_region(image_height, image_width)

output_images = []
bar = display(progress(0, num_frames-1), display_id=True)
for frame_idx in range(num_frames):
  keypoints_with_scores = run_inference(
      movenet, image[frame_idx, :, :, :], crop_region,
      crop_size=[input_size, input_size])
      image[frame_idx, :, :, :].numpy().astype(np.int32),
      keypoints_with_scores, crop_region=None,
      close_figure=True, output_image_height=300))
  crop_region = determine_crop_region(
      keypoints_with_scores, image_height, image_width)
  bar.update(progress(frame_idx, num_frames-1))

# Prepare gif visualization.
output = np.stack(output_images, axis=0)
to_gif(output, fps=10)
