dsprites

dSprites مجموعه داده ای از اشکال دوبعدی است که به صورت رویه ای از 6 عامل نهفته مستقل از حقیقت پایه تولید می شود. این عوامل رنگ، شکل، مقیاس، چرخش، x و y از مواضع یک جن.

تمام ترکیب‌های ممکن از این پنهان‌ها دقیقاً یک بار وجود دارند و تعداد N = 737280 تصویر را ایجاد می‌کنند.

مقادیر عامل پنهان

  • رنگ سفید
  • شکل: مربع، بیضی، قلب
  • مقیاس: 6 مقدار با فاصله خطی در [0.5, 1]
  • جهت: 40 مقدار در [0، 2 pi]
  • موقعیت X: 32 مقدار در [0، 1]
  • موقعیت Y: 32 مقدار در [0، 1]

ما هر بار یک نهفته را تغییر دادیم (شروع از موقعیت Y، سپس موقعیت X و غیره)، و به طور متوالی تصاویر را به ترتیب ثابت ذخیره کردیم. از این رو ترتیب در امتداد بعد اول ثابت است و به شما امکان می دهد تا به مقدار نهفته های مربوط به آن تصویر برگردید.

ما مقادیر پنهان را عمداً انتخاب کردیم تا کوچکترین تغییرات گام را داشته باشیم و در عین حال اطمینان حاصل کنیم که همه خروجی های پیکسل متفاوت هستند. نویز اضافه نشد

شکاف مثال ها
'train' 737280
  • ویژگی ها:
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=tf.uint8),
    'label_orientation': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'value_orientation': tf.float32,
    'value_scale': tf.float32,
    'value_shape': tf.float32,
    'value_x_position': tf.float32,
    'value_y_position': tf.float32,
})

تجسم

  • ارجاع:
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}