ref_ココ

  • 説明

COCO データセット内の画像に基づく 3 つの参照表現データセットのコレクション。参照表現は、画像内の固有のオブジェクトを説明するテキストです。これらのデータセットは、人間の評価者に COCO データセット内の境界ボックスで区切られたオブジェクトを明確にするよう依頼することによって収集されます。

RefCoco と RefCoco+ は Kazemzadeh らによるものです。 2014. RefCoco+ の表現は厳密に外観に基づいた記述であり、評価者が位置に基づいた記述を使用することを禁止することで強制されています (たとえば、「右側の人」は RefCoco+ の有効な記述ではありません)。 RefCocoG は Mao らからのものです。 2016 では、アノテーション プロセスの違いにより、RefCoco と比較してオブジェクトの説明がより豊富になっています。特に、RefCoco はインタラクティブなゲームベースの設定で収集されましたが、RefCocoG は非インタラクティブな設定で収集されました。平均すると、RefCocoG には 1 つの式につき 8.4 ワードがあり、RefCoco には 3.5 ワードがあります。

各データセットには異なる分割割り当てがあり、通常はすべて論文で報告されます。 RefCoco と RefCoco+ の「testA」セットと「testB」セットには、それぞれ人のみと人以外のみが含まれます。画像はさまざまな分割に分割されます。 「google」分割では、画像ではなくオブジェクトがトレイン分割とトレイン以外の分割に分割されます。これは、同じイメージがトレイン分割と検証分割の両方に表示される可能性がありますが、イメージ内で参照されるオブジェクトが 2 つのセット間で異なることを意味します。対照的に、「unc」と「umd」は、パーティション イメージをトレーニング、検証、テストの分割に分割します。 RefCocoG では、「google」分割には正規のテスト セットがなく、通常、検証セットは論文で「val*」として報告されます。

各データセットと分割の統計 (「refs」は参照式の数、「images」は画像の数です):

データセットパーティションスプリット参照画像
レフココグーグル電車40000 19213
レフココグーグルヴァル5000 4559
レフココグーグルテスト5000 4527
レフココアンク電車42404 16994
レフココアンクヴァル3811 1500
レフココアンクテストA 1975年750
レフココアンクテストB 1810年750
レフココ+アンク電車42278 16992
レフココ+アンクヴァル3805 1500
レフココ+アンクテストA 1975年750
レフココ+アンクテストB 1798年750
レフココググーグル電車44822 24698
レフココググーグルヴァル5000 4650
レフココグうーん電車42226 21899
レフココグうーんヴァル2573 1300
レフココグうーんテスト5023 2600
  1. https://github.com/cocodataset/cocoapiの PythonAPI の手順に従って、 https://cocodataset.org/#downloadから pycocotools と instances_train2014 アノテーション ファイルを取得します。

  2. (1) の Refer.py と (2) の pycocotools の両方を PYTHONPATH に追加します。

  3. Manual_download_process.py を実行して refcoco.json を生成し、 ref_data_rootcoco_annotations_file 、およびout_file 、これらのファイルをダウンロードした場所または保存する場所に対応する値に置き換えます。 Manual_download_process.py は TFDS リポジトリにあることに注意してください。

  4. https://cocodataset.org/#downloadから COCO トレーニング セットをダウンロードし、 coco_train2014/というフォルダーに貼り付けます。 refcoco.json coco_train2014と同じレベルに移動します。

  5. 標準的なマニュアルのダウンロード手順に従ってください。

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
coco_annotations順序
coco_annotations/エリアテンソルint64
coco_annotations/bbox BBox機能(4,) float32
coco_annotations/idテンソルint64
coco_annotations/ラベルテンソルint64
画像画像(なし、なし、3) uint8
画像/IDテンソルint64
オブジェクト順序
オブジェクト/エリアテンソルint64
オブジェクト/BボックスBBox機能(4,) float32
オブジェクト/gt_box_indexテンソルint64
オブジェクト/IDテンソルint64
オブジェクト/ラベルテンソルint64
オブジェクト/マスク画像(なし、なし、3) uint8
オブジェクト/refexp順序
オブジェクト/refexp/生文章
オブジェクト/refexp/refexp_idテンソルint64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (デフォルト設定)

  • データセットのサイズ: 3.29 GiB

  • 分割:

スプリット
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

視覚化

ref_coco/refcoco_google

  • データセットのサイズ: 4.65 GiB

  • 分割:

スプリット
'test' 4,527
'train' 19,213
'validation' 4,559

視覚化

ref_coco/refcocoplus_unc

  • データセットのサイズ: 3.29 GiB

  • 分割:

スプリット
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

視覚化

ref_coco/refcocog_google

  • データセットのサイズ: 4.64 GiB

  • 分割:

スプリット
'train' 24,698
'validation' 4,650

視覚化

ref_coco/refcocog_umd

  • データセットのサイズ: 4.08 GiB

  • 分割:

スプリット
'test' 2,600
'train' 21,899
'validation' 1,300

視覚化