- شرح :
مجموعه داده برای اولین بار در بخش "اشیاء سه بعدی استانفورد" از مقاله Disentangling by Subspace Diffusion توضیح داده شد. داده ها شامل 100000 رندر هر یک از اشیاء Bunny و Dragon از مخزن اسکن سه بعدی استانفورد است . ممکن است در آینده اشیاء بیشتری اضافه شوند، اما فقط Bunny و Dragon در مقاله استفاده می شوند. هر جسم با یک نور نمونه برداری یکنواخت از یک نقطه در کره 2، و یک چرخش سه بعدی نمونه برداری یکنواخت ارائه می شود. حالت های پنهان واقعی به صورت آرایه های NumPy همراه با تصاویر ارائه می شوند. نورپردازی به صورت یک بردار 3 با هنجار واحد ارائه می شود، در حالی که چرخش هم به صورت کواترنیون و هم به صورت ماتریس متعامد 3×3 ارائه می شود.
شباهتهای زیادی بین S3O4D و مجموعه دادههای معیار ML موجود مانند NORB ، صندلیهای سهبعدی ، شکلهای سهبعدی و بسیاری دیگر وجود دارد، که همچنین شامل رندرهایی از مجموعهای از اشیاء تحت شرایط مختلف حالت و روشنایی است. با این حال، هیچ یک از این مجموعه دادههای موجود شامل منیفولد کامل چرخشهای سهبعدی نمیشوند - بیشتر آنها فقط زیر مجموعهای از تغییرات ارتفاع و آزیموت را شامل میشوند. تصاویر S3O4D به طور یکنواخت و مستقل از فضای کامل چرخش ها و روشنایی ها نمونه برداری می شوند، به این معنی که مجموعه داده شامل اشیایی است که وارونه هستند و از پشت یا زیر آن روشن می شوند. ما معتقدیم که این باعث میشود S3O4D بهطور منحصربهفردی برای تحقیق در مورد مدلهای مولد که در آن فضای پنهان دارای توپولوژی غیرمعمول است، و همچنین برای روشهای یادگیری منیفولد کلی که انحنای منیفولد مهم است، مناسب باشد.
اسناد اضافی : کاوش در کاغذها با کد
کد منبع :
tfds.datasets.s3o4d.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
911.68 MiB
حجم مجموعه داده :
1.01 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'bunny_test' | 20000 |
'bunny_train' | 80000 |
'dragon_test' | 20000 |
'dragon_train' | 80000 |
- ساختار ویژگی :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
روشنایی | تانسور | (3،) | float32 | |
تصویر | تصویر | (256، 256، 3) | uint8 | |
برچسب | ClassLabel | int64 | ||
pose_mat | تانسور | (3، 3) | float32 | |
pose_quat | تانسور | (4،) | float32 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}