ref_ココ

説明：

COCO データセット内の画像に基づく 3 つの参照表現データセットのコレクション。参照表現は、画像内の固有のオブジェクトを説明するテキストです。これらのデータセットは、人間の評価者に COCO データセット内の境界ボックスで区切られたオブジェクトを明確にするよう依頼することによって収集されます。

RefCoco と RefCoco+ は Kazemzadeh らによるものです。 2014. RefCoco+ の表現は厳密に外観に基づいた記述であり、評価者が位置に基づいた記述を使用することを禁止することで強制されています (たとえば、「右側の人」は RefCoco+ の有効な記述ではありません)。 RefCocoG は Mao らからのものです。 2016 では、アノテーションプロセスの違いにより、RefCoco と比較してオブジェクトの説明がより豊富になっています。特に、RefCoco はインタラクティブなゲームベースの設定で収集されましたが、RefCocoG は非インタラクティブな設定で収集されました。平均すると、RefCocoG には 1 つの式につき 8.4 ワードがあり、RefCoco には 3.5 ワードがあります。

各データセットには異なる分割割り当てがあり、通常はすべて論文で報告されます。 RefCoco と RefCoco+ の「testA」セットと「testB」セットには、それぞれ人のみと人以外のみが含まれます。画像はさまざまな分割に分割されます。「google」分割では、画像ではなくオブジェクトがトレイン分割とトレイン以外の分割に分割されます。これは、同じイメージがトレイン分割と検証分割の両方に表示される可能性がありますが、イメージ内で参照されるオブジェクトが 2 つのセット間で異なることを意味します。対照的に、「unc」と「umd」は、パーティションイメージをトレーニング、検証、テストの分割に分割します。 RefCocoG では、「google」分割には正規のテストセットがなく、通常、検証セットは論文で「val*」として報告されます。

各データセットと分割の統計 (「refs」は参照式の数、「images」は画像の数です):

データセット	パーティション	スプリット	参照	画像
レフココ	グーグル	電車	40000	19213
レフココ	グーグル	ヴァル	5000	4559
レフココ	グーグル	テスト	5000	4527
レフココ	アンク	電車	42404	16994
レフココ	アンク	ヴァル	3811	1500
レフココ	アンク	テストA	1975年	750
レフココ	アンク	テストB	1810年	750
レフココ+	アンク	電車	42278	16992
レフココ+	アンク	ヴァル	3805	1500
レフココ+	アンク	テストA	1975年	750
レフココ+	アンク	テストB	1798年	750
レフココグ	グーグル	電車	44822	24698
レフココグ	グーグル	ヴァル	5000	4650
レフココグ	うーん	電車	42226	21899
レフココグ	うーん	ヴァル	2573	1300
レフココグ	うーん	テスト	5023	2600

追加ドキュメント:コード付きの論文について調べる
ホームページ: https://github.com/lichengunc/refer
ソースコード: tfds.datasets.ref_coco.Builder
バージョン:
- 1.0.0 : 初期リリース。
- 1.1.0 (デフォルト): マスクを追加しました。
ダウンロードサイズ: Unknown size
手動ダウンロード手順: このデータセットでは、ソースデータをdownload_config.manual_dirに手動でダウンロードする必要があります (デフォルトは~/tensorflow_datasets/downloads/manual/ )。
https://github.com/lichengunc/referの指示に従い、リポジトリで指定されている data/ ディレクトリと一致する注釈と画像をダウンロードします。

https://github.com/cocodataset/cocoapiの PythonAPI の手順に従って、 https://cocodataset.org/#downloadから pycocotools と instances_train2014 アノテーションファイルを取得します。
(1) の Refer.py と (2) の pycocotools の両方を PYTHONPATH に追加します。
Manual_download_process.py を実行して refcoco.json を生成し、 ref_data_root 、 coco_annotations_file 、およびout_file 、これらのファイルをダウンロードした場所または保存する場所に対応する値に置き換えます。 Manual_download_process.py は TFDS リポジトリにあることに注意してください。
https://cocodataset.org/#downloadから COCO トレーニングセットをダウンロードし、 coco_train2014/というフォルダーに貼り付けます。 refcoco.json coco_train2014と同じレベルに移動します。
標準のマニュアルダウンロード手順に従ってください。

自動キャッシュ(ドキュメント): いいえ
機能の構造:

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

機能ドキュメント:

特徴	クラス	形	Dタイプ
	特徴辞書
coco_annotations	順序
coco_annotations/エリア	テンソル		int64
coco_annotations/bbox	BBox機能	(4,)	float32
coco_annotations/id	テンソル		int64
coco_annotations/ラベル	テンソル		int64
画像	画像	(なし、なし、3)	uint8
画像/ID	テンソル		int64
オブジェクト	順序
オブジェクト/エリア	テンソル		int64
オブジェクト/Bボックス	BBox機能	(4,)	float32
オブジェクト/gt_box_index	テンソル		int64
オブジェクト/ID	テンソル		int64
オブジェクト/ラベル	テンソル		int64
オブジェクト/マスク	画像	(なし、なし、3)	uint8
オブジェクト/refexp	順序
オブジェクト/refexp/生	文章		弦
オブジェクト/refexp/refexp_id	テンソル		int64

監視キー( as_supervised docを参照): None
引用：

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}