dsprites

dSprites es un conjunto de datos de formas 2D generadas por procedimientos a partir de 6 factores latentes independientes de la realidad del terreno. Estos factores son el color , la forma , la escala , la rotación y las posiciones x e y de un sprite.

Todas las combinaciones posibles de estas latentes están presentes exactamente una vez, generando N = 737280 imágenes totales.

Valores de factores latentes

  • Color blanco
  • Forma: cuadrado, elipse, corazón.
  • Escala: 6 valores espaciados linealmente en [0.5, 1]
  • Orientación: 40 valores en [0, 2 pi]
  • Posición X: 32 valores en [0, 1]
  • Posición Y: 32 valores en [0, 1]

Variamos una latente a la vez (comenzando desde la Posición Y, luego la Posición X, etc.) y almacenamos secuencialmente las imágenes en un orden fijo. Por lo tanto, el orden a lo largo de la primera dimensión es fijo y le permite volver a mapear el valor de las latentes correspondientes a esa imagen.

Elegimos los valores latentes deliberadamente para tener los cambios de paso más pequeños y asegurarnos de que todas las salidas de píxeles fueran diferentes. No se agregó ningún ruido.

Separar Ejemplos
'train' 737,280
  • Estructura de características :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
imagen Imagen (64, 64, 1) uint8
etiqueta_orientación Etiqueta de clase int64
etiqueta_escala Etiqueta de clase int64
etiqueta_forma Etiqueta de clase int64
etiqueta_x_posición Etiqueta de clase int64
label_y_position Etiqueta de clase int64
orientación de valores Tensor flotar32
valor_escala Tensor flotar32
valor_forma Tensor flotar32
valor_x_posición Tensor flotar32
valor_y_posición Tensor flotar32

Visualización

  • Cita :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}