ref_coco

  • Descrizione :

Una raccolta di 3 set di dati di espressioni di riferimento basati su immagini nel set di dati COCO. Un'espressione di riferimento è un pezzo di testo che descrive un oggetto univoco in un'immagine. Questi set di dati vengono raccolti chiedendo a valutatori umani di chiarire le ambiguità degli oggetti delineati da riquadri di delimitazione nel set di dati COCO.

RefCoco e RefCoco+ provengono da Kazemzadeh et al. 2014. Le espressioni RefCoco+ sono descrizioni strettamente basate sull'apparenza, che hanno applicato impedendo ai valutatori di utilizzare descrizioni basate sulla posizione (ad esempio, "persona a destra" non è una descrizione valida per RefCoco+). RefCocoG proviene da Mao et al. 2016 e presenta una descrizione degli oggetti più ricca rispetto a RefCoco a causa delle differenze nel processo di annotazione. In particolare, RefCoco è stato raccolto in un contesto interattivo basato sul gioco, mentre RefCocoG è stato raccolto in un contesto non interattivo. In media, RefCocoG ha 8,4 parole per espressione mentre RefCoco ha 3,5 parole.

Ogni set di dati ha allocazioni suddivise diverse che in genere sono tutte riportate nei documenti. I set "testA" e "testB" in RefCoco e RefCoco+ contengono rispettivamente solo persone e solo non persone. Le immagini vengono suddivise nelle varie suddivisioni. Nella suddivisione "google", gli oggetti, non le immagini, vengono suddivisi tra le suddivisioni treno e non treno. Ciò significa che la stessa immagine può apparire sia nella suddivisione del treno che in quella di convalida, ma gli oggetti a cui si fa riferimento nell'immagine saranno diversi tra i due insiemi. Al contrario, "unc" e "umd" dividono le immagini della partizione tra la suddivisione del treno, della convalida e del test. In RefCocoG, la suddivisione "google" non ha un set di test canonico e il set di convalida viene generalmente riportato nei documenti come "val*".

Statistiche per ogni set di dati e suddivisione ("refs" è il numero di espressioni di riferimento e "images" è il numero di immagini):

set di dati partizione diviso rif immagini
refcoco Google treno 40000 19213
refcoco Google val 5000 4559
refcoco Google test 5000 4527
refcoco unc treno 42404 16994
refcoco unc val 3811 1500
refcoco unc provaA 1975 750
refcoco unc provaB 1810 750
refcoco+ unc treno 42278 16992
refcoco+ unc val 3805 1500
refcoco+ unc provaA 1975 750
refcoco+ unc provaB 1798 750
refcocog Google treno 44822 24698
refcocog Google val 5000 4650
refcocog ehm treno 42226 21899
refcocog ehm val 2573 1300
refcocog ehm test 5023 2600
  1. Segui le istruzioni di PythonAPI in https://github.com/cocodataset/cocoapi per ottenere pycocotools e il file delle annotazioni istanze_train2014 da https://cocodataset.org/#download

  2. Aggiungi sia refer.py da (1) che pycocotools da (2) al tuo PYTHONPATH.

  3. Esegui manual_download_process.py per generare refcoco.json, sostituendo ref_data_root , coco_annotations_file e out_file con i valori corrispondenti a dove hai scaricato/vuoi salvare questi file. Tieni presente che manual_download_process.py può essere trovato nel repository TFDS.

  4. Scarica il set di formazione COCO da https://cocodataset.org/#download e inseriscilo in una cartella chiamata coco_train2014/ . Sposta refcoco.json allo stesso livello di coco_train2014 .

  5. Seguire le istruzioni standard per il download del manuale.

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Struttura delle caratteristiche :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
coco_annotations Sequenza
coco_annotations/area Tensore int64
coco_annotations/bbox Funzione BBox (4,) float32
coco_annotations/id Tensore int64
coco_annotations/etichetta Tensore int64
Immagine Immagine (Nessuno, Nessuno, 3) uint8
immagine/id Tensore int64
oggetti Sequenza
oggetti/area Tensore int64
oggetti/bbox Funzione BBox (4,) float32
oggetti/gt_box_index Tensore int64
oggetti/id Tensore int64
oggetti/etichetta Tensore int64
oggetti/maschera Immagine (Nessuno, Nessuno, 3) uint8
oggetti/rif Sequenza
oggetti/refexp/raw Testo corda
oggetti/refexp/refexp_id Tensore int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (configurazione predefinita)

  • Dimensione del set di dati : 3.29 GiB

  • Divide :

Diviso Esempi
'testA' 750
'testB' 750
'train' 16.994
'validation' 1.500

Visualizzazione

ref_coco/refcoco_google

  • Dimensioni del set di dati : 4.65 GiB

  • Divide :

Diviso Esempi
'test' 4.527
'train' 19.213
'validation' 4.559

Visualizzazione

ref_coco/refcocoplus_unc

  • Dimensione del set di dati : 3.29 GiB

  • Divide :

Diviso Esempi
'testA' 750
'testB' 750
'train' 16.992
'validation' 1.500

Visualizzazione

ref_coco/refcocog_google

  • Dimensione del set di dati : 4.64 GiB

  • Divide :

Diviso Esempi
'train' 24.698
'validation' 4.650

Visualizzazione

ref_coco/refcocog_umd

  • Dimensione del set di dati : 4.08 GiB

  • Divide :

Diviso Esempi
'test' 2.600
'train' 21.899
'validation' 1.300

Visualizzazione