gref

  • الوصف :

مجموعة بيانات Google RefExp عبارة عن مجموعة من الأوصاف النصية للكائنات في الصور والتي تعتمد على مجموعة بيانات MS-COCO المتاحة للجمهور. في حين أن التسميات التوضيحية للصورة في MS-COCO تنطبق على الصورة بأكملها ، تركز مجموعة البيانات هذه على أوصاف النص التي تسمح للشخص بتحديد كائن أو منطقة واحدة بشكل فريد داخل الصورة. اطلع على مزيد من التفاصيل في هذه الورقة: إنشاء وفهم أوصاف كائن لا لبس فيها.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية : https://github.com/mjhucla/Google_Refexp_toolbox

  • كود المصدر : tfds.vision_language.gref.Gref

  • إصدارات :

    • 1.0.0 (افتراضي): الإصدار الأولي.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 4.60 GiB

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    اتبع التعليمات الموجودة على https://github.com/mjhucla/Google_Refexp_toolbox لتنزيل البيانات ومعالجتها مسبقًا بتنسيق متوافق مع COCO. يحتوي الدليل على ملفين ومجلد واحد:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014 /

يحتوي مجلد coco_train2014 على جميع صور تدريب COCO 2014.

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 24698
'validation' 4650
  • هيكل الميزة :
FeaturesDict({
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/id': int64,
   
'objects': Sequence({
       
'area': int64,
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'id': int64,
       
'label': int64,
       
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
       
'refexp': Sequence({
           
'raw': Text(shape=(), dtype=string),
           
'referent': Text(shape=(), dtype=string),
           
'refexp_id': int64,
           
'tokens': Sequence(Text(shape=(), dtype=string)),
       
}),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
صورة صورة (لا شيء ، لا شيء ، 3) uint8
الصورة / معرف موتر int64
أشياء تسلسل
الأشياء / المنطقة موتر int64
كائنات / bbox ميزة BBox (4 ،) تعويم 32
الكائنات / معرف موتر int64
الكائنات / التسمية موتر int64
الكائنات / label_name ClassLabel int64
كائنات / refexp تسلسل
كائنات / refexp / خام نص سلسلة
كائنات / refexp / مرجعية نص سلسلة
كائنات / refexp / refexp_id موتر int64
الكائنات / refexp / الرموز المميزة تسلسل (نص) (لا أحد،) سلسلة

التصور

  • الاقتباس :
@inproceedings{mao2016generation,
  title
={Generation and Comprehension of Unambiguous Object Descriptions},
  author
={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle
={CVPR},
  year
={2016}
}