- विवरण :
डेटासेट का वर्णन सबसे पहले पेपर डिसेन्टैंगलिंग बाय सबस्पेस डिफ्यूजन के "स्टैनफोर्ड 3डी ऑब्जेक्ट्स" खंड में किया गया था। डेटा में स्टैनफोर्ड 3डी स्कैनिंग रिपॉजिटरी से प्रत्येक बनी और ड्रैगन ऑब्जेक्ट के 100,000 रेंडरिंग शामिल हैं। भविष्य में और वस्तुएं जोड़ी जा सकती हैं, लेकिन पेपर में केवल बनी और ड्रैगन का उपयोग किया जाता है। प्रत्येक वस्तु को 2-गोले पर एक बिंदु से समान रूप से नमूना रोशनी और एक समान रूप से नमूना 3 डी रोटेशन के साथ प्रस्तुत किया जाता है। वास्तविक अव्यक्त अवस्थाएँ छवियों के साथ NumPy सरणियों के रूप में प्रदान की जाती हैं। प्रकाश को यूनिट मानक के साथ 3-वेक्टर के रूप में दिया जाता है, जबकि रोटेशन को क्वाटरनियन और 3x3 ऑर्थोगोनल मैट्रिक्स दोनों के रूप में प्रदान किया जाता है।
S3O4D और मौजूदा ML बेंचमार्क डेटासेट जैसे NORB , 3D चेयर , 3D शेप और कई अन्य के बीच कई समानताएं हैं, जिसमें विभिन्न मुद्रा और रोशनी की स्थिति के तहत वस्तुओं के एक सेट का रेंडरिंग भी शामिल है। हालाँकि, इनमें से किसी भी मौजूदा डेटासेट में 3डी में घुमावों की पूरी विविधता शामिल नहीं है - अधिकांश में ऊंचाई और अज़ीमुथ में परिवर्तनों का केवल एक सबसेट शामिल है। S3O4D छवियों को घूर्णन और रोशनी के पूर्ण स्थान से समान रूप से और स्वतंत्र रूप से नमूना लिया जाता है, जिसका अर्थ है कि डेटासेट में ऐसी वस्तुएं होती हैं जो उलटी होती हैं और पीछे या नीचे से प्रकाशित होती हैं। हमारा मानना है कि यह S3O4D को जेनरेटिव मॉडल पर अनुसंधान के लिए विशिष्ट रूप से उपयुक्त बनाता है जहां अव्यक्त स्थान में गैर-तुच्छ टोपोलॉजी है, साथ ही सामान्य कई गुना सीखने के तरीकों के लिए जहां कई गुना की वक्रता महत्वपूर्ण है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले कागजात पर अन्वेषण करें
होमपेज : https://github.com/दीपमाइंड/ दीपमाइंड-रिसर्च/ट्री/मास्टर/जियोमांसर#stanford-3d-objects-for-disentangling-s3o4d
स्रोत कोड :
tfds.datasets.s3o4d.Builderसंस्करण :
-
1.0.0(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
911.68 MiBडेटासेट का आकार :
1.01 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'bunny_test' | 20,000 |
'bunny_train' | 80,000 |
'dragon_test' | 20,000 |
'dragon_train' | 80,000 |
- फ़ीचर संरचना :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
|---|---|---|---|---|
| फीचर्सडिक्ट | ||||
| रोशनी | टेन्सर | (3,) | फ्लोट32 | |
| छवि | छवि | (256, 256, 3) | uint8 | |
| लेबल | क्लास लेबल | int64 | ||
| पोज़_मैट | टेन्सर | (3,3) | फ्लोट32 | |
| पोज़_क्वाट | टेन्सर | (4,) | फ्लोट32 |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ):

- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}