- Keterangan :
Kumpulan 3 kumpulan data ekspresi perujuk berdasarkan gambar dalam kumpulan data COCO. Ekspresi rujukan adalah bagian teks yang mendeskripsikan objek unik dalam gambar. Kumpulan data ini dikumpulkan dengan meminta penilai manusia untuk membedakan objek yang digambarkan dengan kotak pembatas dalam kumpulan data COCO.
RefCoco dan RefCoco+ berasal dari Kazemzadeh dkk. 2014. Ekspresi RefCoco+ hanyalah deskripsi berdasarkan penampilan, yang diterapkan dengan mencegah penilai menggunakan deskripsi berdasarkan lokasi (misalnya, "orang di sebelah kanan" bukanlah deskripsi yang valid untuk RefCoco+). RefCocoG berasal dari Mao dkk. 2016, dan memiliki deskripsi objek yang lebih kaya dibandingkan RefCoco karena perbedaan dalam proses anotasi. Secara khusus, RefCoco dikumpulkan dalam lingkungan berbasis permainan interaktif, sedangkan RefCocoG dikumpulkan dalam lingkungan non-interaktif. Rata-rata, RefCocoG memiliki 8,4 kata per ekspresi sedangkan RefCoco memiliki 3,5 kata.
Setiap kumpulan data memiliki alokasi terpisah yang berbeda-beda, yang biasanya semuanya dilaporkan dalam bentuk makalah. Kumpulan "testA" dan "testB" di RefCoco dan RefCoco+ masing-masing hanya berisi orang dan hanya non-orang. Gambar dipartisi menjadi beberapa bagian. Dalam pemisahan "google", objek, bukan gambar, dipartisi antara pemisahan kereta dan non-kereta. Artinya, gambar yang sama dapat muncul di bagian rangkaian dan validasi, namun objek yang dirujuk dalam gambar akan berbeda di antara kedua set tersebut. Sebaliknya, "unc" dan "umd" membagi gambar partisi antara pemisahan kereta, validasi, dan pengujian. Di RefCocoG, pemisahan "google" tidak memiliki set pengujian kanonik, dan set validasi biasanya dilaporkan di surat kabar sebagai "val*".
Statistik untuk setiap kumpulan data dan pemisahan ("refs" adalah jumlah ekspresi rujukan, dan "gambar" adalah jumlah gambar):
Himpunan data | partisi | membelah | referensi | gambar-gambar |
---|---|---|---|---|
refcoco | kereta | 40000 | 19213 | |
refcoco | val | 5000 | 4559 | |
refcoco | tes | 5000 | 4527 | |
refcoco | tidak | kereta | 42404 | 16994 |
refcoco | tidak | val | 3811 | 1500 |
refcoco | tidak | tesA | 1975 | 750 |
refcoco | tidak | tesB | 1810 | 750 |
refcoco+ | tidak | kereta | 42278 | 16992 |
refcoco+ | tidak | val | 3805 | 1500 |
refcoco+ | tidak | tesA | 1975 | 750 |
refcoco+ | tidak | tesB | 1798 | 750 |
refcocog | kereta | 44822 | 24698 | |
refcocog | val | 5000 | 4650 | |
refcocog | umd | kereta | 42226 | 21899 |
refcocog | umd | val | 2573 | 1300 |
refcocog | umd | tes | 5023 | 2600 |
Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Beranda : https://github.com/lichengunc/refer
Kode sumber :
tfds.datasets.ref_coco.Builder
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
(default): Menambahkan topeng.
-
Ukuran unduhan :
Unknown size
Petunjuk pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default pada~/tensorflow_datasets/downloads/manual/
):Ikuti instruksi di https://github.com/lichengunc/refer dan unduh anotasi dan gambar, cocok dengan direktori data/ yang ditentukan dalam repo.
Ikuti instruksi PythonAPI di https://github.com/cocodataset/cocoapi untuk mendapatkan pycocotools dan file anotasi instances_train2014 dari https://cocodataset.org/#download
Tambahkan refer.py dari (1) dan pycocotools dari (2) ke PYTHONPATH Anda.
Jalankan manual_download_process.py untuk menghasilkan refcoco.json, ganti
ref_data_root
,coco_annotations_file
, danout_file
dengan nilai yang sesuai dengan tempat Anda mengunduh/ingin menyimpan file-file ini. Perhatikan bahwa manual_download_process.py dapat ditemukan di repositori TFDS.Unduh set pelatihan COCO dari https://cocodataset.org/#download dan tempelkan ke dalam folder bernama
coco_train2014/
. Pindahkanrefcoco.json
ke level yang sama dengancoco_train2014
.Ikuti instruksi pengunduhan manual standar.
Cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
coco_annotations | Urutan | |||
coco_annotations/area | Tensor | int64 | ||
coco_annotations/bbox | Fitur BBox | (4,) | float32 | |
coco_annotations/id | Tensor | int64 | ||
coco_annotations/label | Tensor | int64 | ||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | |
gambar/id | Tensor | int64 | ||
objek | Urutan | |||
benda/daerah | Tensor | int64 | ||
objek/bbox | Fitur BBox | (4,) | float32 | |
objek/gt_box_index | Tensor | int64 | ||
objek/id | Tensor | int64 | ||
benda/label | Tensor | int64 | ||
benda/topeng | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | |
objek/refexp | Urutan | |||
objek/refexp/mentah | Teks | rangkaian | ||
objek/refexp/refexp_id | Tensor | int64 |
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Kutipan :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (konfigurasi default)
Ukuran kumpulan data :
3.29 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.994 |
'validation' | 1.500 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
ref_coco/refcoco_google
Ukuran kumpulan data :
4.65 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 4.527 |
'train' | 19.213 |
'validation' | 4.559 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Ukuran kumpulan data :
3.29 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.992 |
'validation' | 1.500 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
ref_coco/refcocog_google
Ukuran kumpulan data :
4.64 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Ukuran kumpulan data :
4.08 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.600 |
'train' | 21.899 |
'validation' | 1.300 |
- Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):