- شرح :
مجموعه ای از 3 مجموعه داده بیانی ارجاع دهنده بر اساس تصاویر موجود در مجموعه داده COCO. عبارت ارجاع دهنده قطعه ای از متن است که یک شی منحصر به فرد را در یک تصویر توصیف می کند. این مجموعه دادهها با درخواست از ارزیابهای انسانی برای ابهامزدایی از اشیاء مشخص شده توسط جعبههای مرزی در مجموعه داده COCO جمعآوری میشوند.
RefCoco و RefCoco+ از کاظم زاده و همکاران هستند. 2014. عبارات RefCoco+ توضیحاتی کاملاً مبتنی بر ظاهر هستند که با جلوگیری از استفاده از توصیفهای مبتنی بر مکان توسط رتبهدهندگان اعمال میشوند (به عنوان مثال، "شخص سمت راست" یک توصیف معتبر برای RefCoco+ نیست). RefCocoG از مائو و همکاران است. 2016، و به دلیل تفاوت در فرآیند حاشیه نویسی، توضیحات غنی تری از اشیا در مقایسه با RefCoco دارد. به طور خاص، RefCoco در یک محیط مبتنی بر بازی تعاملی جمعآوری شد، در حالی که RefCocoG در یک محیط غیر تعاملی جمعآوری شد. به طور متوسط، RefCocoG دارای 8.4 کلمه در هر عبارت است در حالی که RefCoco دارای 3.5 کلمه است.
هر مجموعه داده دارای تقسیم بندی های متفاوتی است که معمولاً همه در مقالات گزارش می شوند. مجموعههای "testA" و "testB" در RefCoco و RefCoco+ به ترتیب فقط شامل افراد و فقط غیر افراد میشوند. تصاویر به بخش های مختلف تقسیم می شوند. در تقسیم "google"، اشیاء، نه تصاویر، بین تقسیم قطار و غیر قطار تقسیم می شوند. این بدان معنی است که یک تصویر می تواند در دو بخش قطار و اعتبارسنجی ظاهر شود، اما اشیایی که در تصویر به آنها اشاره می شود بین دو مجموعه متفاوت خواهند بود. در مقابل، "unc" و "umd" تصاویر پارتیشن را بین قطار، اعتبارسنجی و تقسیم آزمایشی تقسیم می کند. در RefCocoG، تقسیم "google" یک مجموعه تست متعارف ندارد و مجموعه اعتبار سنجی معمولا در مقالات به عنوان "val*" گزارش می شود.
آمار برای هر مجموعه داده و تقسیم ("refs" تعداد عبارات ارجاع دهنده است و "تصاویر" تعداد تصاویر است):
مجموعه داده | تقسیم بندی | شکاف | مراجع | تصاویر |
---|---|---|---|---|
رفکوکو | گوگل | قطار - تعلیم دادن | 40000 | 19213 |
رفکوکو | گوگل | val | 5000 | 4559 |
رفکوکو | گوگل | تست | 5000 | 4527 |
رفکوکو | unc | قطار - تعلیم دادن | 42404 | 16994 |
رفکوکو | unc | val | 3811 | 1500 |
رفکوکو | unc | testA | 1975 | 750 |
رفکوکو | unc | testB | 1810 | 750 |
refcoco+ | unc | قطار - تعلیم دادن | 42278 | 16992 |
refcoco+ | unc | val | 3805 | 1500 |
refcoco+ | unc | testA | 1975 | 750 |
refcoco+ | unc | testB | 1798 | 750 |
refcocog | گوگل | قطار - تعلیم دادن | 44822 | 24698 |
refcocog | گوگل | val | 5000 | 4650 |
refcocog | umd | قطار - تعلیم دادن | 42226 | 21899 |
refcocog | umd | val | 2573 | 1300 |
refcocog | umd | تست | 5023 | 2600 |
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/lichengunc/refer
کد منبع :
tfds.datasets.ref_coco.Builder
نسخه ها :
-
1.0.0
: انتشار اولیه. -
1.1.0
(پیشفرض): ماسکهای اضافه شده.
-
اندازه دانلود :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
دانلود کنید (پیشفرض~/tensorflow_datasets/downloads/manual/
):دستورالعملهای موجود در https://github.com/lichengunc/refer را دنبال کنید و حاشیهنویسیها و تصاویر را دانلود کنید، مطابق با فهرست دادهها/ مشخصشده در مخزن.
دستورالعمل های PythonAPI را در https://github.com/cocodataset/cocoapi دنبال کنید تا pycocotools و فایل حاشیه نویسی instances_train2014 را از https://cocodataset.org/#download دریافت کنید.
هم refer.py را از (1) و هم pycocotools از (2) را به PYTHONPATH خود اضافه کنید.
manual_download_process.py را اجرا کنید تا refcoco.json ایجاد شود و
ref_data_root
,coco_annotations_file
وout_file
با مقادیر مربوط به جایی که دانلود کرده اید / می خواهید این فایل ها را ذخیره کنید جایگزین کنید. توجه داشته باشید که manual_download_process.py را می توان در مخزن TFDS یافت.مجموعه آموزش COCO را از https://cocodataset.org/#download دانلود کرده و در پوشه ای به نام
coco_train2014/
قرار دهید.refcoco.json
به همان سطحcoco_train2014
منتقل کنید.دستورالعمل های استاندارد دانلود دستی را دنبال کنید.
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
coco_annotations | توالی | |||
coco_annotations/ area | تانسور | int64 | ||
coco_annotations/bbox | ویژگی BBox | (4،) | float32 | |
coco_annotations/id | تانسور | int64 | ||
coco_annotations/label | تانسور | int64 | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
تصویر / شناسه | تانسور | int64 | ||
اشیاء | توالی | |||
اشیاء/منطقه | تانسور | int64 | ||
اشیاء/bbox | ویژگی BBox | (4،) | float32 | |
اشیاء/gt_box_index | تانسور | int64 | ||
اشیاء / شناسه | تانسور | int64 | ||
اشیاء/برچسب | تانسور | int64 | ||
اشیاء / ماسک | تصویر | (هیچ، هیچ، 3) | uint8 | |
اشیاء/refexp | توالی | |||
اشیاء/refexp/raw | متن | رشته | ||
objects/refexp/refexp_id | تانسور | int64 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
نقل قول :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (پیکربندی پیشفرض)
حجم مجموعه داده :
3.29 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16994 |
'validation' | 1500 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
ref_coco/refcoco_google
حجم مجموعه داده :
4.65 GiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
حجم مجموعه داده :
3.29 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16992 |
'validation' | 1500 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
ref_coco/refcocog_google
حجم مجموعه داده :
4.64 GiB
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 24698 |
'validation' | 4650 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
ref_coco/refcocog_umd
حجم مجموعه داده :
4.08 GiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2600 |
'train' | 21,899 |
'validation' | 1300 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):