ref_coco

  • Описание :

Коллекция из 3 наборов данных ссылающихся выражений на основе изображений в наборе данных COCO. Ссылочное выражение — это фрагмент текста, описывающий уникальный объект на изображении. Эти наборы данных собираются путем обращения к оценщикам с просьбой устранить неоднозначность объектов, очерченных ограничивающими прямоугольниками в наборе данных COCO.

RefCoco и RefCoco+ получены от Kazemzadeh et al. 2014. Выражения RefCoco+ являются строго описаниями, основанными на внешнем виде, которые они обеспечивают, запрещая оценщикам использовать описания, основанные на местоположении (например, «человек справа» не является допустимым описанием для RefCoco+). RefCocoG от Mao et al. 2016, и имеет более богатое описание объектов по сравнению с RefCoco из-за различий в процессе аннотирования. В частности, RefCoco был собран в интерактивной игровой обстановке, а RefCocoG — в неинтерактивной. В среднем RefCocoG содержит 8,4 слова на выражение, а RefCoco — 3,5 слова.

Каждый набор данных имеет разные разделения, которые обычно сообщаются в документах. Наборы «testA» и «testB» в RefCoco и RefCoco+ содержат только людей и только не людей соответственно. Изображения разбиты на различные сплиты. В разделении «google» объекты, а не изображения, разделены между поездами и не поездами. Это означает, что одно и то же изображение может появиться как в поезде, так и в проверочном разделении, но объекты, на которые ссылаются изображения, будут разными в этих двух наборах. Напротив, «unc» и «umd» разбивают образы разделов между поездом, проверкой и тестом. В RefCocoG раздел "google" не имеет канонического тестового набора, а проверочный набор обычно указывается в документах как "val*".

Статистика для каждого набора данных и разделения («ссылки» — это количество ссылающихся выражений, а «изображения» — это количество изображений):

набор данных раздел расколоть судьи картинки
рефкоко Google тренироваться 40000 19213
рефкоко Google вал 5000 4559
рефкоко Google тест 5000 4527
рефкоко unc тренироваться 42404 16994
рефкоко unc вал 3811 1500
рефкоко unc тест А 1975 г. 750
рефкоко unc тест Б 1810 г. 750
рефкоко+ unc тренироваться 42278 16992
рефкоко+ unc вал 3805 1500
рефкоко+ unc тест А 1975 г. 750
рефкоко+ unc тест Б 1798 г. 750
refcocog Google тренироваться 44822 24698
refcocog Google вал 5000 4650
refcocog умд тренироваться 42226 21899
refcocog умд вал 2573 1300
refcocog умд тест 5023 2600
  • Домашняя страница : https://github.com/lichengunc/refer

  • Исходный код : tfds.vision_language.refcoco.RefCoco

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):

  • Следуйте инструкциям на странице https://github.com/lichengunc/refer и загрузите аннотации и изображения, соответствующие каталогу data/, указанному в репозитории.

  1. Следуйте инструкциям PythonAPI в https://github.com/cocodataset/cocoapi , чтобы получить pycocotools и файл аннотаций instances_train2014 с https://cocodataset.org/#download .

  2. Добавьте refer.py из (1) и pycocotools из (2) в ваш PYTHONPATH.

  3. Запустите manual_download_process.py, чтобы сгенерировать refcoco.json, заменив ref_data_root , coco_annotations_file и out_file значениями, соответствующими тому, где вы загрузили или хотите сохранить эти файлы. Обратите внимание, что manual_download_process.py можно найти в репозитории TFDS.

  4. Загрузите обучающий набор COCO с https://cocodataset.org/#download и поместите его в папку с именем coco_train2014/ . Переместите refcoco.json на тот же уровень, что и coco_train2014 .

  5. Следуйте стандартным инструкциям по загрузке руководства.

  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
coco_annotations Последовательность
coco_annotations/площадь Тензор tf.int64
coco_annotations/bbox BBoxFeature (4,) tf.float32
coco_annotations/id Тензор tf.int64
coco_annotations/метка Тензор tf.int64
изображение Изображение (Нет, Нет, 3) tf.uint8
изображение/идентификатор Тензор tf.int64
объекты Последовательность
объекты/площадь Тензор tf.int64
объекты/bbox BBoxFeature (4,) tf.float32
объекты/gt_box_index Тензор tf.int64
объекты/идентификатор Тензор tf.int64
объекты/метка Тензор tf.int64
объекты/refexp Последовательность
объекты/refexp/сырые Текст tf.string
объекты/refexp/refexp_id Тензор tf.int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (конфигурация по умолчанию)

  • Размер набора данных : 3.24 GiB

  • Сплиты :

Расколоть Примеры
'testA' 750
'testB' 750
'train' 16 994
'validation' 1500

Визуализация

ref_coco/refcoco_google

  • Размер набора данных : 4.60 GiB

  • Сплиты :

Расколоть Примеры
'test' 4527
'train' 19 213
'validation' 4559

Визуализация

ref_coco/refcocoplus_unc

  • Размер набора данных : 3.24 GiB

  • Сплиты :

Расколоть Примеры
'testA' 750
'testB' 750
'train' 16 992
'validation' 1500

Визуализация

ref_coco/refcocog_google

  • Размер набора данных : 4.59 GiB

  • Сплиты :

Расколоть Примеры
'train' 24 698
'validation' 4650

Визуализация

ref_coco/refcocog_umd

  • Размер набора данных : 4.04 GiB

  • Сплиты :

Расколоть Примеры
'test' 2600
'train' 21 899
'validation' 1300

Визуализация