ذكي

  • وصف :

CLEVR عبارة عن مجموعة بيانات تشخيصية تختبر مجموعة من قدرات التفكير البصري. فهو يحتوي على الحد الأدنى من التحيزات ويحتوي على شروح تفصيلية تصف نوع المنطق الذي يتطلبه كل سؤال.

ينقسم أمثلة
'test' 15000
'train' 70.000
'validation' 15000
  • هيكل الميزة :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'objects': Sequence({
        '3d_coords': Tensor(shape=(3,), dtype=float32),
        'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
        'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
        'pixel_coords': Tensor(shape=(3,), dtype=float32),
        'rotation': float32,
        'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'question_answer': Sequence({
        'answer': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
اسم الملف نص خيط
صورة صورة (لا شيء، لا شيء، 3) uint8
أشياء تسلسل
objects/3d_coords الموتر (3،) float32
الكائنات / اللون ClassLabel int64
الأشياء / المواد ClassLabel int64
الكائنات/pixel_coords الموتر (3،) float32
الكائنات/التناوب الموتر float32
الكائنات / الشكل ClassLabel int64
الكائنات / الحجم ClassLabel int64
جواب السؤال تسلسل
question_answer/answer نص خيط
question_answer/question نص خيط

التصور

  • الاقتباس :
@inproceedings{johnson2017clevr,
  title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
  author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  year={2017}
}