चतुर

CLEVR एक डायग्नोस्टिक डेटासेट है जो विज़ुअल रीजनिंग क्षमताओं की एक श्रृंखला का परीक्षण करता है। इसमें कम से कम पूर्वाग्रह होते हैं और प्रत्येक प्रश्न के लिए जिस तरह के तर्क की आवश्यकता होती है उसका वर्णन करने वाले विस्तृत विवरण होते हैं।

विभाजित करना उदाहरण
'test' 15,000
'train' 70,000
'validation' 15,000
  • फ़ीचर संरचना :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'objects': Sequence({
        '3d_coords': Tensor(shape=(3,), dtype=float32),
        'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
        'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
        'pixel_coords': Tensor(shape=(3,), dtype=float32),
        'rotation': float32,
        'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'question_answer': Sequence({
        'answer': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
फ़ाइल का नाम मूलपाठ डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
वस्तुओं क्रम
ऑब्जेक्ट्स/3d_coords टेन्सर (3,) फ्लोट32
वस्तुओं / रंग क्लासलेबल int64
वस्तुओं / सामग्री क्लासलेबल int64
ऑब्जेक्ट्स/पिक्सेल_कोर्ड्स टेन्सर (3,) फ्लोट32
ऑब्जेक्ट्स/रोटेशन टेन्सर फ्लोट32
वस्तुओं/आकार क्लासलेबल int64
वस्तुओं / आकार क्लासलेबल int64
प्रश्न जवाब क्रम
प्रश्न_उत्तर/उत्तर मूलपाठ डोरी
प्रश्न_उत्तर/प्रश्न मूलपाठ डोरी

VISUALIZATION

  • उद्धरण :
@inproceedings{johnson2017clevr,
  title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
  author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  year={2017}
}