s3o4d

Keterangan :

Kumpulan data pertama kali dijelaskan di bagian "Objek 3D Stanford" pada makalah Disentangling by Subspace Diffusion . Data tersebut terdiri dari 100.000 rendering masing-masing objek Kelinci dan Naga dari Stanford 3D Scanning Repository . Lebih banyak objek mungkin ditambahkan di masa depan, tetapi hanya Kelinci dan Naga yang digunakan di kertas. Setiap objek dirender dengan sampel iluminasi yang seragam dari suatu titik pada 2 bola, dan sampel rotasi 3D yang seragam. Status laten sebenarnya disediakan sebagai array NumPy bersama dengan gambarnya. Penerangan diberikan dalam bentuk 3 vektor dengan norma satuan, sedangkan rotasi diberikan dalam bentuk angka empat dan matriks ortogonal 3x3.

Ada banyak kesamaan antara S3O4D dan kumpulan data benchmark ML yang ada seperti NORB , Kursi 3D , Bentuk 3D , dan banyak lainnya, yang juga mencakup rendering sekumpulan objek dalam pose dan kondisi pencahayaan berbeda. Namun, tidak satu pun dari kumpulan data yang ada ini menyertakan seluruh variasi rotasi dalam 3D - sebagian besar hanya menyertakan sebagian perubahan pada ketinggian dan azimuth. Gambar S3O4D diambil sampelnya secara seragam dan independen dari seluruh ruang rotasi dan iluminasi, artinya kumpulan data berisi objek yang terbalik dan diterangi dari belakang atau bawah. Kami percaya bahwa hal ini membuat S3O4D secara unik cocok untuk penelitian model generatif di mana ruang laten memiliki topologi non-trivial, serta untuk metode pembelajaran manifold umum yang mengutamakan kelengkungan manifold.

Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Beranda : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Kode sumber : tfds.datasets.s3o4d.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : 911.68 MiB
Ukuran kumpulan data : 1.01 GiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'bunny_test'`	20.000
`'bunny_train'`	80.000
`'dragon_test'`	20.000
`'dragon_train'`	80.000

Struktur fitur :

FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D
	FiturDict
penerangan	Tensor	(3,)	float32
gambar	Gambar	(256, 256, 3)	uint8
label	Label Kelas		int64
pose_mat	Tensor	(3, 3)	float32
pose_quat	Tensor	(4,)	float32

Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ):

Visualisasi

Contoh ( tfds.as_dataframe ):

Kutipan :

@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}