dsprites

dSprites הוא מערך נתונים של צורות דו-ממדיות שנוצרו באופן פרוצדורלי מ-6 גורמים סמויים בלתי תלויים של אמת קרקע. גורמים אלה הם צבע, צורה, מידה, סיבוב, x ו- y עמדות של ספרייט.

כל השילובים האפשריים של הסמויים הללו קיימים בדיוק פעם אחת, ומייצרים N = 737280 תמונות בסך הכל.

ערכי גורמים סמויים

  • צבע לבן
  • צורה: ריבוע, אליפסה, לב
  • קנה מידה: 6 ערכים ברווח ליניארי ב-[0.5, 1]
  • כיוון: 40 ערכים ב-[0, 2 pi]
  • מיקום X: 32 ערכים ב-[0, 1]
  • מיקום Y: 32 ערכים ב-[0, 1]

שינינו סמוי אחד בכל פעם (החל ממיקום Y, לאחר מכן ממיקום X וכו'), ואחסנו ברצף את התמונות בסדר קבוע. מכאן שהסדר לאורך המימד הראשון קבוע ומאפשר למפות חזרה לערך הסמויים המתאימים לאותה תמונה.

בחרנו את הערכים הסמויים בכוונה כדי לקבל את השינויים הצעדים הקטנים ביותר תוך הבטחה שכל פלטי הפיקסלים יהיו שונים. לא התווסף רעש.

לְפַצֵל דוגמאות
'train' 737,280
  • מאפיינים:
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=tf.uint8),
    'label_orientation': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'value_orientation': tf.float32,
    'value_scale': tf.float32,
    'value_shape': tf.float32,
    'value_x_position': tf.float32,
    'value_y_position': tf.float32,
})

רְאִיָה

  • ציטוט:
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}