- Descrizione :
Una raccolta di 3 set di dati di espressioni di riferimento basati su immagini nel set di dati COCO. Un'espressione di riferimento è un pezzo di testo che descrive un oggetto univoco in un'immagine. Questi set di dati vengono raccolti chiedendo a valutatori umani di chiarire le ambiguità degli oggetti delineati da riquadri di delimitazione nel set di dati COCO.
RefCoco e RefCoco+ provengono da Kazemzadeh et al. 2014. Le espressioni RefCoco+ sono descrizioni strettamente basate sull'apparenza, che hanno applicato impedendo ai valutatori di utilizzare descrizioni basate sulla posizione (ad esempio, "persona a destra" non è una descrizione valida per RefCoco+). RefCocoG proviene da Mao et al. 2016 e presenta una descrizione degli oggetti più ricca rispetto a RefCoco a causa delle differenze nel processo di annotazione. In particolare, RefCoco è stato raccolto in un contesto interattivo basato sul gioco, mentre RefCocoG è stato raccolto in un contesto non interattivo. In media, RefCocoG ha 8,4 parole per espressione mentre RefCoco ha 3,5 parole.
Ogni set di dati ha allocazioni suddivise diverse che in genere sono tutte riportate nei documenti. I set "testA" e "testB" in RefCoco e RefCoco+ contengono rispettivamente solo persone e solo non persone. Le immagini vengono suddivise nelle varie suddivisioni. Nella suddivisione "google", gli oggetti, non le immagini, vengono suddivisi tra le suddivisioni treno e non treno. Ciò significa che la stessa immagine può apparire sia nella suddivisione del treno che in quella di convalida, ma gli oggetti a cui si fa riferimento nell'immagine saranno diversi tra i due insiemi. Al contrario, "unc" e "umd" dividono le immagini della partizione tra la suddivisione del treno, della convalida e del test. In RefCocoG, la suddivisione "google" non ha un set di test canonico e il set di convalida è generalmente riportato nei documenti come "val*".
Statistiche per ogni set di dati e suddivisione ("refs" è il numero di espressioni di riferimento e "images" è il numero di immagini):
set di dati | partizione | diviso | rif | immagini |
---|---|---|---|---|
refcoco | treno | 40000 | 19213 | |
refcoco | val | 5000 | 4559 | |
refcoco | test | 5000 | 4527 | |
refcoco | unc | treno | 42404 | 16994 |
refcoco | unc | val | 3811 | 1500 |
refcoco | unc | provaA | 1975 | 750 |
refcoco | unc | prova B | 1810 | 750 |
refcoco+ | unc | treno | 42278 | 16992 |
refcoco+ | unc | val | 3805 | 1500 |
refcoco+ | unc | provaA | 1975 | 750 |
refcoco+ | unc | prova B | 1798 | 750 |
refcocog | treno | 44822 | 24698 | |
refcocog | val | 5000 | 4650 | |
refcocog | ehm | treno | 42226 | 21899 |
refcocog | ehm | val | 2573 | 1300 |
refcocog | ehm | test | 5023 | 2600 |
Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : https://github.com/lichengunc/refer
Codice sorgente :
tfds.datasets.ref_coco.Builder
Versioni :
-
1.0.0
: versione iniziale. -
1.1.0
(predefinito): aggiunte maschere.
-
Dimensioni del download :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in
download_config.manual_dir
(il valore predefinito è~/tensorflow_datasets/downloads/manual/
):Segui le istruzioni in https://github.com/lichengunc/refer e scarica le annotazioni e le immagini, corrispondenti alla directory data/ specificata nel repository.
Segui le istruzioni di PythonAPI in https://github.com/cocodataset/cocoapi per ottenere pycocotools e il file delle annotazioni istanze_train2014 da https://cocodataset.org/#download
Aggiungi sia refer.py da (1) che pycocotools da (2) al tuo PYTHONPATH.
Esegui manual_download_process.py per generare refcoco.json, sostituendo
ref_data_root
,coco_annotations_file
eout_file
con i valori corrispondenti a dove hai scaricato/vuoi salvare questi file. Tieni presente che manual_download_process.py può essere trovato nel repository TFDS.Scarica il set di formazione COCO da https://cocodataset.org/#download e inseriscilo in una cartella chiamata
coco_train2014/
. Spostarefcoco.json
allo stesso livello dicoco_train2014
.Seguire le istruzioni standard per il download del manuale.
Memorizzazione nella cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
coco_annotations | Sequenza | |||
coco_annotations/area | Tensore | int64 | ||
coco_annotations/bbox | Funzione BBox | (4,) | float32 | |
coco_annotations/id | Tensore | int64 | ||
coco_annotations/etichetta | Tensore | int64 | ||
Immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
immagine/id | Tensore | int64 | ||
oggetti | Sequenza | |||
oggetti/area | Tensore | int64 | ||
oggetti/bbox | Funzione BBox | (4,) | float32 | |
oggetti/gt_box_index | Tensore | int64 | ||
oggetti/id | Tensore | int64 | ||
oggetti/etichetta | Tensore | int64 | ||
oggetti/maschera | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
oggetti/rif | Sequenza | |||
oggetti/refexp/raw | Testo | corda | ||
oggetti/refexp/refexp_id | Tensore | int64 |
Chiavi supervisionate (vedi il documento
as_supervised
):None
Citazione :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (configurazione predefinita)
Dimensione del set di dati :
3.29 GiB
Divide :
Diviso | Esempi |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.994 |
'validation' | 1.500 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
ref_coco/refcoco_google
Dimensioni del set di dati :
4.65 GiB
Divide :
Diviso | Esempi |
---|---|
'test' | 4.527 |
'train' | 19.213 |
'validation' | 4.559 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Dimensione del set di dati :
3.29 GiB
Divide :
Diviso | Esempi |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.992 |
'validation' | 1.500 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
ref_coco/refcocog_google
Dimensioni del set di dati :
4.64 GiB
Divide :
Diviso | Esempi |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Dimensione del set di dati :
4.08 GiB
Divide :
Diviso | Esempi |
---|---|
'test' | 2.600 |
'train' | 21.899 |
'validation' | 1.300 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):