ref_coco

  • Keterangan :

Kumpulan 3 kumpulan data ekspresi perujuk berdasarkan gambar dalam kumpulan data COCO. Ekspresi rujukan adalah bagian teks yang mendeskripsikan objek unik dalam gambar. Kumpulan data ini dikumpulkan dengan meminta penilai manusia untuk membedakan objek yang digambarkan dengan kotak pembatas dalam kumpulan data COCO.

RefCoco dan RefCoco+ berasal dari Kazemzadeh dkk. 2014. Ekspresi RefCoco+ hanyalah deskripsi berdasarkan penampilan, yang diterapkan dengan mencegah penilai menggunakan deskripsi berdasarkan lokasi (misalnya, "orang di sebelah kanan" bukanlah deskripsi yang valid untuk RefCoco+). RefCocoG berasal dari Mao dkk. 2016, dan memiliki deskripsi objek yang lebih kaya dibandingkan RefCoco karena perbedaan dalam proses anotasi. Secara khusus, RefCoco dikumpulkan dalam lingkungan berbasis permainan interaktif, sedangkan RefCocoG dikumpulkan dalam lingkungan non-interaktif. Rata-rata, RefCocoG memiliki 8,4 kata per ekspresi sedangkan RefCoco memiliki 3,5 kata.

Setiap kumpulan data memiliki alokasi terpisah yang berbeda-beda, yang biasanya semuanya dilaporkan dalam bentuk makalah. Kumpulan "testA" dan "testB" di RefCoco dan RefCoco+ masing-masing hanya berisi orang dan hanya non-orang. Gambar dipartisi menjadi beberapa bagian. Dalam pemisahan "google", objek, bukan gambar, dipartisi antara pemisahan kereta dan non-kereta. Artinya, gambar yang sama dapat muncul di bagian rangkaian dan validasi, namun objek yang dirujuk dalam gambar akan berbeda di antara kedua set tersebut. Sebaliknya, "unc" dan "umd" membagi gambar partisi antara pemisahan kereta, validasi, dan pengujian. Di RefCocoG, pemisahan "google" tidak memiliki set pengujian kanonik, dan set validasi biasanya dilaporkan di surat kabar sebagai "val*".

Statistik untuk setiap kumpulan data dan pemisahan ("refs" adalah jumlah ekspresi rujukan, dan "gambar" adalah jumlah gambar):

Himpunan data partisi membelah referensi gambar-gambar
refcoco google kereta 40000 19213
refcoco google val 5000 4559
refcoco google tes 5000 4527
refcoco tidak kereta 42404 16994
refcoco tidak val 3811 1500
refcoco tidak tesA 1975 750
refcoco tidak tesB 1810 750
refcoco+ tidak kereta 42278 16992
refcoco+ tidak val 3805 1500
refcoco+ tidak tesA 1975 750
refcoco+ tidak tesB 1798 750
refcocog google kereta 44822 24698
refcocog google val 5000 4650
refcocog umd kereta 42226 21899
refcocog umd val 2573 1300
refcocog umd tes 5023 2600
  1. Ikuti instruksi PythonAPI di https://github.com/cocodataset/cocoapi untuk mendapatkan pycocotools dan file anotasi instances_train2014 dari https://cocodataset.org/#download

  2. Tambahkan refer.py dari (1) dan pycocotools dari (2) ke PYTHONPATH Anda.

  3. Jalankan manual_download_process.py untuk menghasilkan refcoco.json, ganti ref_data_root , coco_annotations_file , dan out_file dengan nilai yang sesuai dengan tempat Anda mengunduh/ingin menyimpan file-file ini. Perhatikan bahwa manual_download_process.py dapat ditemukan di repositori TFDS.

  4. Unduh set pelatihan COCO dari https://cocodataset.org/#download dan tempelkan ke dalam folder bernama coco_train2014/ . Pindahkan refcoco.json ke level yang sama dengan coco_train2014 .

  5. Ikuti instruksi pengunduhan manual standar.

  • Cache otomatis ( dokumentasi ): Tidak

  • Struktur fitur :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
coco_annotations Urutan
coco_annotations/area Tensor int64
coco_annotations/bbox Fitur BBox (4,) float32
coco_annotations/id Tensor int64
coco_annotations/label Tensor int64
gambar Gambar (Tidak ada, Tidak ada, 3) uint8
gambar/id Tensor int64
objek Urutan
benda/daerah Tensor int64
objek/bbox Fitur BBox (4,) float32
objek/gt_box_index Tensor int64
objek/id Tensor int64
benda/label Tensor int64
benda/topeng Gambar (Tidak ada, Tidak ada, 3) uint8
objek/refexp Urutan
objek/refexp/mentah Teks rangkaian
objek/refexp/refexp_id Tensor int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (konfigurasi default)

  • Ukuran kumpulan data : 3.29 GiB

  • Perpecahan :

Membelah Contoh
'testA' 750
'testB' 750
'train' 16.994
'validation' 1.500

Visualisasi

ref_coco/refcoco_google

  • Ukuran kumpulan data : 4.65 GiB

  • Perpecahan :

Membelah Contoh
'test' 4.527
'train' 19.213
'validation' 4.559

Visualisasi

ref_coco/refcocoplus_unc

  • Ukuran kumpulan data : 3.29 GiB

  • Perpecahan :

Membelah Contoh
'testA' 750
'testB' 750
'train' 16.992
'validation' 1.500

Visualisasi

ref_coco/refcocog_google

  • Ukuran kumpulan data : 4.64 GiB

  • Perpecahan :

Membelah Contoh
'train' 24.698
'validation' 4.650

Visualisasi

ref_coco/refcocog_umd

  • Ukuran kumpulan data : 4.08 GiB

  • Perpecahan :

Membelah Contoh
'test' 2.600
'train' 21.899
'validation' 1.300

Visualisasi