s3o4d

  • Keterangan :

Kumpulan data pertama kali dijelaskan di bagian "Objek 3D Stanford" pada makalah Disentangling by Subspace Diffusion . Data tersebut terdiri dari 100.000 rendering masing-masing objek Kelinci dan Naga dari Stanford 3D Scanning Repository . Lebih banyak objek mungkin ditambahkan di masa depan, tetapi hanya Kelinci dan Naga yang digunakan di kertas. Setiap objek dirender dengan sampel iluminasi yang seragam dari suatu titik pada 2 bola, dan sampel rotasi 3D yang seragam. Status laten sebenarnya disediakan sebagai array NumPy bersama dengan gambarnya. Penerangan diberikan dalam bentuk 3 vektor dengan norma satuan, sedangkan rotasi diberikan dalam bentuk angka empat dan matriks ortogonal 3x3.

Ada banyak kesamaan antara S3O4D dan kumpulan data benchmark ML yang ada seperti NORB , Kursi 3D , Bentuk 3D , dan banyak lainnya, yang juga mencakup rendering sekumpulan objek dalam pose dan kondisi pencahayaan berbeda. Namun, tidak satu pun dari kumpulan data yang ada ini menyertakan seluruh variasi rotasi dalam 3D - sebagian besar hanya menyertakan sebagian perubahan pada ketinggian dan azimuth. Gambar S3O4D diambil sampelnya secara seragam dan independen dari seluruh ruang rotasi dan iluminasi, artinya kumpulan data berisi objek yang terbalik dan diterangi dari belakang atau bawah. Kami percaya bahwa hal ini membuat S3O4D secara unik cocok untuk penelitian model generatif di mana ruang laten memiliki topologi non-trivial, serta untuk metode pembelajaran manifold umum yang mengutamakan kelengkungan manifold.

Membelah Contoh
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Struktur fitur :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
penerangan Tensor (3,) float32
gambar Gambar (256, 256, 3) uint8
label Label Kelas int64
pose_mat Tensor (3, 3) float32
pose_quat Tensor (4,) float32

Visualisasi

  • Kutipan :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}