ref_coco

  • شرح :

مجموعه ای از 3 مجموعه داده بیانی ارجاع دهنده بر اساس تصاویر موجود در مجموعه داده COCO. عبارت ارجاع دهنده قطعه ای از متن است که یک شی منحصر به فرد را در یک تصویر توصیف می کند. این مجموعه داده‌ها با درخواست از ارزیاب‌های انسانی برای ابهام‌زدایی از اشیاء مشخص شده توسط جعبه‌های مرزی در مجموعه داده COCO جمع‌آوری می‌شوند.

RefCoco و RefCoco+ از کاظم زاده و همکاران هستند. 2014. عبارات RefCoco+ توضیحاتی کاملاً مبتنی بر ظاهر هستند که با جلوگیری از استفاده از توصیف‌های مبتنی بر مکان توسط رتبه‌دهندگان اعمال می‌شوند (به عنوان مثال، "شخص سمت راست" یک توصیف معتبر برای RefCoco+ نیست). RefCocoG از مائو و همکاران است. 2016، و به دلیل تفاوت در فرآیند حاشیه نویسی، توضیحات غنی تری از اشیا در مقایسه با RefCoco دارد. به طور خاص، RefCoco در یک محیط مبتنی بر بازی تعاملی جمع‌آوری شد، در حالی که RefCocoG در یک محیط غیر تعاملی جمع‌آوری شد. به طور متوسط، RefCocoG دارای 8.4 کلمه در هر عبارت است در حالی که RefCoco دارای 3.5 کلمه است.

هر مجموعه داده دارای تقسیم بندی های متفاوتی است که معمولاً همه در مقالات گزارش می شوند. مجموعه‌های "testA" و "testB" در RefCoco و RefCoco+ به ترتیب فقط شامل افراد و فقط غیر افراد می‌شوند. تصاویر به بخش های مختلف تقسیم می شوند. در تقسیم "google"، اشیاء، نه تصاویر، بین تقسیم قطار و غیر قطار تقسیم می شوند. این بدان معنی است که یک تصویر می تواند در دو بخش قطار و اعتبارسنجی ظاهر شود، اما اشیایی که در تصویر به آنها اشاره می شود بین دو مجموعه متفاوت خواهند بود. در مقابل، "unc" و "umd" تصاویر پارتیشن را بین قطار، اعتبارسنجی و تقسیم آزمایشی تقسیم می کند. در RefCocoG، تقسیم "google" یک مجموعه تست متعارف ندارد و مجموعه اعتبار سنجی معمولا در مقالات به عنوان "val*" گزارش می شود.

آمار برای هر مجموعه داده و تقسیم ("refs" تعداد عبارات ارجاع دهنده است و "تصاویر" تعداد تصاویر است):

مجموعه داده تقسیم بندی شکاف مراجع تصاویر
رفکوکو گوگل قطار - تعلیم دادن 40000 19213
رفکوکو گوگل val 5000 4559
رفکوکو گوگل تست 5000 4527
رفکوکو unc قطار - تعلیم دادن 42404 16994
رفکوکو unc val 3811 1500
رفکوکو unc testA 1975 750
رفکوکو unc testB 1810 750
refcoco+ unc قطار - تعلیم دادن 42278 16992
refcoco+ unc val 3805 1500
refcoco+ unc testA 1975 750
refcoco+ unc testB 1798 750
refcocog گوگل قطار - تعلیم دادن 44822 24698
refcocog گوگل val 5000 4650
refcocog umd قطار - تعلیم دادن 42226 21899
refcocog umd val 2573 1300
refcocog umd تست 5023 2600
  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://github.com/lichengunc/refer

  • کد منبع : tfds.datasets.ref_coco.Builder

  • نسخه ها :

    • 1.0.0 : انتشار اولیه.
    • 1.1.0 (پیش‌فرض): ماسک‌های اضافه شده.
  • اندازه دانلود : Unknown size

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir دانلود کنید (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):

  • دستورالعمل‌های موجود در https://github.com/lichengunc/refer را دنبال کنید و حاشیه‌نویسی‌ها و تصاویر را دانلود کنید، مطابق با فهرست داده‌ها/ مشخص‌شده در مخزن.

  1. دستورالعمل های PythonAPI را در https://github.com/cocodataset/cocoapi دنبال کنید تا pycocotools و فایل حاشیه نویسی instances_train2014 را از https://cocodataset.org/#download دریافت کنید.

  2. هم refer.py را از (1) و هم pycocotools از (2) را به PYTHONPATH خود اضافه کنید.

  3. manual_download_process.py را اجرا کنید تا refcoco.json ایجاد شود و ref_data_root , coco_annotations_file و out_file با مقادیر مربوط به جایی که دانلود کرده اید / می خواهید این فایل ها را ذخیره کنید جایگزین کنید. توجه داشته باشید که manual_download_process.py را می توان در مخزن TFDS یافت.

  4. مجموعه آموزش COCO را از https://cocodataset.org/#download دانلود کرده و در پوشه ای به نام coco_train2014/ قرار دهید. refcoco.json به همان سطح coco_train2014 منتقل کنید.

  5. دستورالعمل های استاندارد دانلود دستی را دنبال کنید.

  • ذخیره خودکار ( اسناد ): خیر

  • ساختار ویژگی :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
coco_annotations توالی
coco_annotations/ area تانسور int64
coco_annotations/bbox ویژگی BBox (4،) float32
coco_annotations/id تانسور int64
coco_annotations/label تانسور int64
تصویر تصویر (هیچ، هیچ، 3) uint8
تصویر / شناسه تانسور int64
اشیاء توالی
اشیاء/منطقه تانسور int64
اشیاء/bbox ویژگی BBox (4،) float32
اشیاء/gt_box_index تانسور int64
اشیاء / شناسه تانسور int64
اشیاء/برچسب تانسور int64
اشیاء / ماسک تصویر (هیچ، هیچ، 3) uint8
اشیاء/refexp توالی
اشیاء/refexp/raw متن رشته
objects/refexp/refexp_id تانسور int64
  • کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None

  • نقل قول :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (پیکربندی پیش‌فرض)

  • حجم مجموعه داده : 3.29 GiB

  • تقسیم ها :

شکاف مثال ها
'testA' 750
'testB' 750
'train' 16994
'validation' 1500

تجسم

ref_coco/refcoco_google

  • حجم مجموعه داده : 4.65 GiB

  • تقسیمات :

شکاف مثال ها
'test' 4,527
'train' 19,213
'validation' 4,559

تجسم

ref_coco/refcocoplus_unc

  • حجم مجموعه داده : 3.29 GiB

  • تقسیم ها :

شکاف مثال ها
'testA' 750
'testB' 750
'train' 16992
'validation' 1500

تجسم

ref_coco/refcocog_google

  • حجم مجموعه داده : 4.64 GiB

  • تقسیمات :

شکاف مثال ها
'train' 24698
'validation' 4650

تجسم

ref_coco/refcocog_umd

  • حجم مجموعه داده : 4.08 GiB

  • تقسیمات :

شکاف مثال ها
'test' 2600
'train' 21,899
'validation' 1300

تجسم