s3o4d

Kumpulan data pertama kali dijelaskan di bagian "Objek 3D Stanford" dari makalah Disentangling by Subspace Diffusion . Data tersebut terdiri dari 100.000 rendering masing-masing objek Kelinci dan Naga dari Repositori Pemindaian 3D Stanford . Lebih banyak objek dapat ditambahkan di masa mendatang, tetapi hanya Kelinci dan Naga yang digunakan di kertas. Setiap objek dirender dengan iluminasi yang disampelkan secara seragam dari suatu titik pada 2 bola, dan rotasi 3D yang disampelkan secara seragam. Status laten yang sebenarnya disediakan sebagai array NumPy bersama dengan gambarnya. Pencahayaan diberikan sebagai 3-vektor dengan norma satuan, sedangkan rotasi disediakan baik sebagai angka empat dan matriks ortogonal 3x3.

Ada banyak kesamaan antara S3O4D dan kumpulan data tolok ukur ML yang ada seperti NORB , Kursi 3D , Bentuk 3D , dan banyak lagi lainnya, yang juga mencakup rendering kumpulan objek dalam kondisi pose dan iluminasi yang berbeda. Namun, tidak satu pun dari kumpulan data yang ada ini menyertakan rotasi lengkap dalam 3D - sebagian besar hanya mencakup sebagian dari perubahan elevasi dan azimuth. Gambar S3O4D diambil sampelnya secara seragam dan independen dari ruang penuh rotasi dan iluminasi, artinya kumpulan data berisi objek yang terbalik dan diterangi dari belakang atau di bawah. Kami percaya bahwa ini membuat S3O4D secara unik cocok untuk penelitian tentang model generatif di mana ruang laten memiliki topologi non-trivial, serta untuk metode pembelajaran manifold umum di mana kelengkungan manifold penting.

Membelah Contoh
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Struktur fitur :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
penerangan Tensor (3,) float32
gambar Gambar (256, 256, 3) uint8
label LabelKelas int64
pose_mat Tensor (3, 3) float32
pose_quat Tensor (4,) float32

Visualisasi

  • Kutipan :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}