মুভনেট: আল্ট্রা দ্রুত এবং নির্ভুল পোজ সনাক্তকরণ মডেল।

TensorFlow.org এ দেখুন Google Colab-এ চালান GitHub এ দেখুন নোটবুক ডাউনলোড করুন TF হাব মডেল দেখুন

MoveNet একটি অতি দ্রুত এবং সঠিক মডেল যে একটি শরীরের 17 keypoints সনাক্ত করে হয়। মডেল দেওয়া হয় মেমরি হাব দুই রূপগুলো, বজ্রপাত এবং বিদ্যুৎ নামে পরিচিত হয়। লাইটনিং লেটেন্সি-সমালোচনামূলক অ্যাপ্লিকেশনগুলির জন্য উদ্দিষ্ট, যখন থান্ডার উচ্চ নির্ভুলতার প্রয়োজন এমন অ্যাপ্লিকেশনগুলির জন্য উদ্দিষ্ট। উভয় মডেলই বেশিরভাগ আধুনিক ডেস্কটপ, ল্যাপটপ এবং ফোনে রিয়েল টাইমের (30+ FPS) চেয়ে দ্রুত চলে, যা লাইভ ফিটনেস, স্বাস্থ্য এবং সুস্থতা অ্যাপ্লিকেশনের জন্য গুরুত্বপূর্ণ প্রমাণিত হয়।

অঙ্কন

* Pexels থেকে ডাউনলোড চিত্র ( https://www.pexels.com/ )

এই Colab আপনাকে কিভাবে MoveNet লোড করতে হয় এবং নীচের ইনপুট ইমেজ এবং ভিডিওতে অনুমান চালাতে হয় তার বিশদ বিবরণ দেয়।

মুভনেটের সাথে মানুষের ভঙ্গি অনুমান

ভিজ্যুয়ালাইজেশন লাইব্রেরি এবং আমদানি

pip install -q imageio
pip install -q opencv-python
pip install -q git+https://github.com/tensorflow/docs
import tensorflow as tf
import tensorflow_hub as hub
from tensorflow_docs.vis import embed
import numpy as np
import cv2

# Import matplotlib libraries
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
import matplotlib.patches as patches

# Some modules to display an animation using imageio.
import imageio
from IPython.display import HTML, display

ভিজ্যুয়ালাইজেশনের জন্য হেল্পার ফাংশন

TF হাব থেকে মডেল লোড করুন

model_name = "movenet_lightning"

if "tflite" in model_name:
  if "movenet_lightning_f16" in model_name:
    !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/lightning/tflite/float16/4?lite-format=tflite
    input_size = 192
  elif "movenet_thunder_f16" in model_name:
    !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/thunder/tflite/float16/4?lite-format=tflite
    input_size = 256
  elif "movenet_lightning_int8" in model_name:
    !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/lightning/tflite/int8/4?lite-format=tflite
    input_size = 192
  elif "movenet_thunder_int8" in model_name:
    !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/thunder/tflite/int8/4?lite-format=tflite
    input_size = 256
  else:
    raise ValueError("Unsupported model name: %s" % model_name)

  # Initialize the TFLite interpreter
  interpreter = tf.lite.Interpreter(model_path="model.tflite")
  interpreter.allocate_tensors()

  def movenet(input_image):
    """Runs detection on an input image.

    Args:
      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

    Returns:
      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    """
    # TF Lite format expects tensor type of uint8.
    input_image = tf.cast(input_image, dtype=tf.uint8)
    input_details = interpreter.get_input_details()
    output_details = interpreter.get_output_details()
    interpreter.set_tensor(input_details[0]['index'], input_image.numpy())
    # Invoke inference.
    interpreter.invoke()
    # Get the model prediction.
    keypoints_with_scores = interpreter.get_tensor(output_details[0]['index'])
    return keypoints_with_scores

else:
  if "movenet_lightning" in model_name:
    module = hub.load("https://tfhub.dev/google/movenet/singlepose/lightning/4")
    input_size = 192
  elif "movenet_thunder" in model_name:
    module = hub.load("https://tfhub.dev/google/movenet/singlepose/thunder/4")
    input_size = 256
  else:
    raise ValueError("Unsupported model name: %s" % model_name)

  def movenet(input_image):
    """Runs detection on an input image.

    Args:
      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

    Returns:
      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    """
    model = module.signatures['serving_default']

    # SavedModel format expects tensor type of int32.
    input_image = tf.cast(input_image, dtype=tf.int32)
    # Run model inference.
    outputs = model(input_image)
    # Output is a [1, 1, 17, 3] tensor.
    keypoints_with_scores = outputs['output_0'].numpy()
    return keypoints_with_scores

একক চিত্র উদাহরণ

এই সময় একটি একক ছবিতে মডেল চলমান 17 মানব keypoints ভবিষ্যদ্বাণী করা এর ন্যূনতম পরিশ্রমী উদাহরণ প্রমান।

ইনপুট ইমেজ লোড করুন

curl -o input_image.jpeg https://images.pexels.com/photos/4384679/pexels-photo-4384679.jpeg --silent
# Load the input image.
image_path = 'input_image.jpeg'
image = tf.io.read_file(image_path)
image = tf.image.decode_jpeg(image)

অনুমান চালান

# Resize and pad the image to keep the aspect ratio and fit the expected size.
input_image = tf.expand_dims(image, axis=0)
input_image = tf.image.resize_with_pad(input_image, input_size, input_size)

# Run model inference.
keypoints_with_scores = movenet(input_image)

# Visualize the predictions with image.
display_image = tf.expand_dims(image, axis=0)
display_image = tf.cast(tf.image.resize_with_pad(
    display_image, 1280, 1280), dtype=tf.int32)
output_overlay = draw_prediction_on_image(
    np.squeeze(display_image.numpy(), axis=0), keypoints_with_scores)

plt.figure(figsize=(5, 5))
plt.imshow(output_overlay)
_ = plt.axis('off')

png

ভিডিও (ইমেজ সিকোয়েন্স) উদাহরণ

এই বিভাগটি দেখায় কিভাবে পূর্ববর্তী ফ্রেম থেকে সনাক্তকরণের উপর ভিত্তি করে বুদ্ধিমান ক্রপিং প্রয়োগ করতে হয় যখন ইনপুটটি ফ্রেমের একটি ক্রম হয়। এটি মডেলটিকে তার মনোযোগ এবং সংস্থানগুলিকে মূল বিষয়ের প্রতি উত্সর্গ করার অনুমতি দেয়, যার ফলে গতির ত্যাগ ছাড়াই অনেক ভাল ভবিষ্যদ্বাণী গুণমান হয়৷

ক্রপিং অ্যালগরিদম

ইনপুট ইমেজ সিকোয়েন্স লোড করুন

wget -q -O dance.gif https://github.com/tensorflow/tfjs-models/raw/master/pose-detection/assets/dance_input.gif
# Load the input image.
image_path = 'dance.gif'
image = tf.io.read_file(image_path)
image = tf.image.decode_gif(image)

ক্রপিং অ্যালগরিদম দিয়ে ইনফারেন্স চালান

# Load the input image.
num_frames, image_height, image_width, _ = image.shape
crop_region = init_crop_region(image_height, image_width)

output_images = []
bar = display(progress(0, num_frames-1), display_id=True)
for frame_idx in range(num_frames):
  keypoints_with_scores = run_inference(
      movenet, image[frame_idx, :, :, :], crop_region,
      crop_size=[input_size, input_size])
  output_images.append(draw_prediction_on_image(
      image[frame_idx, :, :, :].numpy().astype(np.int32),
      keypoints_with_scores, crop_region=None,
      close_figure=True, output_image_height=300))
  crop_region = determine_crop_region(
      keypoints_with_scores, image_height, image_width)
  bar.update(progress(frame_idx, num_frames-1))

# Prepare gif visualization.
output = np.stack(output_images, axis=0)
to_gif(output, fps=10)

gif