dsprites

dSprites হল 2D আকারের একটি ডেটাসেট যা পদ্ধতিগতভাবে 6টি গ্রাউন্ড ট্রুথ স্বাধীন সুপ্ত ফ্যাক্টর থেকে তৈরি হয়। এই বিষয়গুলি রঙ, আকৃতি, স্কেল, ঘুর্ণন, x এবং একটি পরী এর Y অবস্থানের হয়।

এই ল্যাটেন্টগুলির সমস্ত সম্ভাব্য সংমিশ্রণ ঠিক একবার উপস্থিত হয়, N = 737280 মোট ছবি তৈরি করে।

সুপ্ত ফ্যাক্টর মান

  • সাদা রং
  • আকৃতি: বর্গক্ষেত্র, উপবৃত্তাকার, হৃদয়
  • স্কেল: 6টি মান রৈখিকভাবে [0.5, 1] ​​এ ব্যবধানে
  • ওরিয়েন্টেশন: 40 মান [0, 2 পাই]
  • অবস্থান X: [0, 1] এ 32 মান
  • অবস্থান Y: [0, 1] এ 32টি মান

আমরা এক সময়ে একটি সুপ্ত পরিবর্তন করেছি (পজিশন Y থেকে শুরু করে, তারপর অবস্থান X, ইত্যাদি), এবং ক্রমানুসারে ছবিগুলিকে নির্দিষ্ট ক্রমে সংরক্ষণ করেছি। তাই প্রথম মাত্রার সাথে ক্রমটি স্থির করা হয়েছে এবং আপনাকে সেই চিত্রের সাথে সম্পর্কিত ল্যাটেন্টের মানটিতে ফিরে ম্যাপ করার অনুমতি দেয়।

সমস্ত পিক্সেল আউটপুট আলাদা ছিল তা নিশ্চিত করার সময় আমরা ক্ষুদ্রতম পদক্ষেপ পরিবর্তনের জন্য ইচ্ছাকৃতভাবে সুপ্ত মানগুলি বেছে নিয়েছি। কোন শব্দ যোগ করা হয়নি.

বিভক্ত উদাহরণ
'train' 737,280
  • বৈশিষ্ট্য:
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=tf.uint8),
    'label_orientation': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'value_orientation': tf.float32,
    'value_scale': tf.float32,
    'value_shape': tf.float32,
    'value_x_position': tf.float32,
    'value_y_position': tf.float32,
})

ভিজ্যুয়ালাইজেশন

  • উদ্ধৃতি:
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}