데스프라이트

dSprites는 6개의 실측 독립 잠재 요인에서 절차적으로 생성된 2D 모양의 데이터 세트입니다. 이러한 요소는 스프라이트의 color , shape , scale , rotation , xy 위치입니다.

이러한 잠재성의 모든 가능한 조합은 정확히 한 번만 존재하며 N = 737280개의 총 이미지를 생성합니다.

잠재 요인 값

  • 색상: 화이트
  • 모양: 사각형, 타원형, 심장
  • 배율: [0.5, 1]에서 선형 간격으로 6개 값
  • 방향: [0, 2파이]의 40개 값
  • 위치 X: [0, 1]의 32개 값
  • 위치 Y: [0, 1]의 32개 값

우리는 한 번에 하나의 잠재성을 변경하고(위치 Y에서 시작하여 위치 X 등) 고정된 순서로 이미지를 순차적으로 저장했습니다. 따라서 첫 번째 차원의 순서는 고정되어 해당 이미지에 해당하는 잠재 값으로 다시 매핑할 수 있습니다.

우리는 모든 픽셀 출력이 서로 다른지 확인하면서 가장 작은 단계 변화를 갖도록 의도적으로 잠재 값을 선택했습니다. 노이즈가 추가되지 않았습니다.

나뉘다
'train' 737,280
  • 기능 구조 :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
영상 영상 (64, 64, 1) uint8
label_orientation 클래스 레이블 int64
label_scale 클래스 레이블 int64
label_shape 클래스 레이블 int64
label_x_위치 클래스 레이블 int64
label_y_position 클래스 레이블 int64
value_orientation 텐서 float32
가치 척도 텐서 float32
value_shape 텐서 float32
값_x_위치 텐서 float32
값_y_위치 텐서 float32

심상

  • 인용 :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}