s3o4d

وصف :

مجموعة البيانات الموصوفة لأول مرة في قسم "كائنات ستانفورد ثلاثية الأبعاد" من الورقة Disentangling by Subspace Diffusion . تتكون البيانات من 100.000 عرض لكل كائن من كائنات Bunny وDragon من مستودع Stanford 3D Scanning Repository . يمكن إضافة المزيد من الكائنات في المستقبل، ولكن يتم استخدام الأرنب والتنين فقط في الورقة. يتم تقديم كل كائن بإضاءة ذات عينات موحدة من نقطة على الكرة الثنائية، ودوران ثلاثي الأبعاد ذو عينات موحدة. يتم توفير الحالات الكامنة الحقيقية كمصفوفات NumPy مع الصور. يتم إعطاء الإضاءة كمتجه 3 مع معيار الوحدة، في حين يتم توفير الدوران على شكل مصفوفة كواترنيون ومصفوفة متعامدة 3x3.

هناك العديد من أوجه التشابه بين S3O4D ومجموعات البيانات المعيارية الحالية لتعلم الآلة مثل NORB ، والكراسي ثلاثية الأبعاد ، والأشكال ثلاثية الأبعاد وغيرها الكثير، والتي تتضمن أيضًا عروضًا لمجموعة من الكائنات في ظل ظروف وإضاءة مختلفة. ومع ذلك، لا تتضمن أي من مجموعات البيانات الموجودة هذه المجموعة الكاملة للدورات ثلاثية الأبعاد - فمعظمها يتضمن فقط مجموعة فرعية من التغييرات في الارتفاع والسمت. يتم أخذ عينات من صور S3O4D بشكل موحد ومستقل عن المساحة الكاملة للدورات والإضاءة، مما يعني أن مجموعة البيانات تحتوي على كائنات مقلوبة رأسًا على عقب ومضاءة من الخلف أو من الأسفل. نحن نعتقد أن هذا يجعل S3O4D مناسبًا بشكل فريد للبحث في النماذج التوليدية حيث يكون للمساحة الكامنة طوبولوجيا غير تافهة، وكذلك لأساليب التعلم العامة المتشعبة حيث يكون انحناء المشعب مهمًا.

وثائق إضافية : استكشف الأوراق ذات الكود
الصفحة الرئيسية : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
كود المصدر : tfds.datasets.s3o4d.Builder
الإصدارات :
- 1.0.0 (افتراضي): الإصدار الأولي.
حجم التحميل : 911.68 MiB
حجم مجموعة البيانات : 1.01 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :

ينقسم	أمثلة
`'bunny_test'`	20.000
`'bunny_train'`	80.000
`'dragon_test'`	20.000
`'dragon_train'`	80.000

هيكل الميزة :

FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع D
	المميزاتDict
إضاءة	الموتر	(3،)	float32
صورة	صورة	(256، 256، 3)	uint8
ملصق	ClassLabel		int64
pose_mat	الموتر	(3، 3)	float32
pose_quat	الموتر	(4،)	float32

المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None
الشكل ( tfds.show_examples ):

التصور

أمثلة ( tfds.as_dataframe ):

الاقتباس :

@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}