ref_coco

  • Descripción :

Una colección de 3 conjuntos de datos de expresiones de referencia basados ​​en imágenes en el conjunto de datos COCO. Una expresión de referencia es un fragmento de texto que describe un objeto único en una imagen. Estos conjuntos de datos se recopilan pidiendo a evaluadores humanos que eliminen la ambigüedad de los objetos delimitados por cuadros delimitadores en el conjunto de datos COCO.

RefCoco y RefCoco+ son de Kazemzadeh et al. 2014. Las expresiones de RefCoco+ son descripciones estrictamente basadas en la apariencia, que aplicaron impidiendo que los evaluadores usaran descripciones basadas en la ubicación (p. ej., "persona a la derecha" no es una descripción válida para RefCoco+). RefCocoG es de Mao et al. 2016, y tiene una descripción más detallada de los objetos en comparación con RefCoco debido a las diferencias en el proceso de anotación. En particular, RefCoco se recopiló en un entorno interactivo basado en juegos, mientras que RefCocoG se recopiló en un entorno no interactivo. En promedio, RefCocoG tiene 8,4 palabras por expresión, mientras que RefCoco tiene 3,5 palabras.

Cada conjunto de datos tiene diferentes asignaciones divididas que generalmente se informan en documentos. Los conjuntos "testA" y "testB" en RefCoco y RefCoco+ contienen solo personas y solo no personas, respectivamente. Las imágenes se dividen en varias divisiones. En la división de "google", los objetos, no las imágenes, se dividen entre las divisiones de tren y no tren. Esto significa que la misma imagen puede aparecer tanto en el tren como en la división de validación, pero los objetos a los que se hace referencia en la imagen serán diferentes entre los dos conjuntos. Por el contrario, "unc" y "umd" dividen las imágenes de partición entre la división de tren, validación y prueba. En RefCocoG, la división "google" no tiene un conjunto de pruebas canónicas, y el conjunto de validación generalmente se informa en los documentos como "val*".

Estadísticas para cada conjunto de datos y división ("refs" es el número de expresiones de referencia e "images" es el número de imágenes):

conjunto de datos dividir separar árbitros imágenes
refcoco Google tren 40000 19213
refcoco Google valor 5000 4559
refcoco Google prueba 5000 4527
refcoco unc tren 42404 16994
refcoco unc valor 3811 1500
refcoco unc pruebaA 1975 750
refcoco unc pruebaB 1810 750
refcoco+ unc tren 42278 16992
refcoco+ unc valor 3805 1500
refcoco+ unc pruebaA 1975 750
refcoco+ unc pruebaB 1798 750
refcocog Google tren 44822 24698
refcocog Google valor 5000 4650
refcocog umd tren 42226 21899
refcocog umd valor 2573 1300
refcocog umd prueba 5023 2600
  1. Siga las instrucciones de PythonAPI en https://github.com/cocodataset/cocoapi para obtener pycocotools y el archivo de anotaciones instances_train2014 de https://cocodataset.org/#download

  2. Agregue tanto refer.py de (1) como pycocotools de (2) a su PYTHONPATH.

  3. Ejecute manual_download_process.py para generar refcoco.json, reemplazando ref_data_root , coco_annotations_file y out_file con los valores correspondientes a donde ha descargado/quiere guardar estos archivos. Tenga en cuenta que manual_download_process.py se puede encontrar en el repositorio de TFDS.

  4. Descargue el conjunto de capacitación de COCO de https://cocodataset.org/#download y péguelo en una carpeta llamada coco_train2014/ . Mueva refcoco.json al mismo nivel que coco_train2014 .

  5. Siga las instrucciones estándar de descarga del manual.

  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
coco_anotaciones Secuencia
coco_anotaciones/área Tensor int64
coco_anotaciones/bbox BBoxCaracterística (4,) flotar32
coco_anotaciones/id Tensor int64
coco_anotaciones/etiqueta Tensor int64
imagen Imagen (Ninguno, Ninguno, 3) uint8
imagen/identificación Tensor int64
objetos Secuencia
objetos/área Tensor int64
objetos/bbox BBoxCaracterística (4,) flotar32
objetos/gt_box_index Tensor int64
objetos/identificación Tensor int64
objetos/etiqueta Tensor int64
objetos/refexp Secuencia
objetos/refexp/sin procesar Texto cadena
objetos/refexp/refexp_id Tensor int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (configuración predeterminada)

  • Tamaño del conjunto de datos : 3.24 GiB

  • Divisiones :

Separar Ejemplos
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

Visualización

ref_coco/refcoco_google

  • Tamaño del conjunto de datos : 4.60 GiB

  • Divisiones :

Separar Ejemplos
'test' 4,527
'train' 19,213
'validation' 4,559

Visualización

ref_coco/refcocoplus_unc

  • Tamaño del conjunto de datos : 3.24 GiB

  • Divisiones :

Separar Ejemplos
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

Visualización

ref_coco/refcocog_google

  • Tamaño del conjunto de datos : 4.59 GiB

  • Divisiones :

Separar Ejemplos
'train' 24,698
'validation' 4,650

Visualización

ref_coco/refcocog_umd

  • Tamaño del conjunto de datos : 4.04 GiB

  • Divisiones :

Separar Ejemplos
'test' 2,600
'train' 21,899
'validation' 1,300

Visualización

,

  • Descripción :

Una colección de 3 conjuntos de datos de expresiones de referencia basados ​​en imágenes en el conjunto de datos COCO. Una expresión de referencia es un fragmento de texto que describe un objeto único en una imagen. Estos conjuntos de datos se recopilan pidiendo a evaluadores humanos que eliminen la ambigüedad de los objetos delimitados por cuadros delimitadores en el conjunto de datos COCO.

RefCoco y RefCoco+ son de Kazemzadeh et al. 2014. Las expresiones de RefCoco+ son descripciones estrictamente basadas en la apariencia, que aplicaron impidiendo que los evaluadores usaran descripciones basadas en la ubicación (p. ej., "persona a la derecha" no es una descripción válida para RefCoco+). RefCocoG es de Mao et al. 2016, y tiene una descripción más detallada de los objetos en comparación con RefCoco debido a las diferencias en el proceso de anotación. En particular, RefCoco se recopiló en un entorno interactivo basado en juegos, mientras que RefCocoG se recopiló en un entorno no interactivo. En promedio, RefCocoG tiene 8,4 palabras por expresión, mientras que RefCoco tiene 3,5 palabras.

Cada conjunto de datos tiene diferentes asignaciones divididas que generalmente se informan en documentos. Los conjuntos "testA" y "testB" en RefCoco y RefCoco+ contienen solo personas y solo no personas, respectivamente. Las imágenes se dividen en varias divisiones. En la división de "google", los objetos, no las imágenes, se dividen entre las divisiones de tren y no tren. Esto significa que la misma imagen puede aparecer tanto en el tren como en la división de validación, pero los objetos a los que se hace referencia en la imagen serán diferentes entre los dos conjuntos. Por el contrario, "unc" y "umd" dividen las imágenes de partición entre la división de tren, validación y prueba. En RefCocoG, la división "google" no tiene un conjunto de pruebas canónicas, y el conjunto de validación generalmente se informa en los documentos como "val*".

Estadísticas para cada conjunto de datos y división ("refs" es el número de expresiones de referencia e "images" es el número de imágenes):

conjunto de datos dividir separar árbitros imágenes
refcoco Google tren 40000 19213
refcoco Google valor 5000 4559
refcoco Google prueba 5000 4527
refcoco unc tren 42404 16994
refcoco unc valor 3811 1500
refcoco unc pruebaA 1975 750
refcoco unc pruebaB 1810 750
refcoco+ unc tren 42278 16992
refcoco+ unc valor 3805 1500
refcoco+ unc pruebaA 1975 750
refcoco+ unc pruebaB 1798 750
refcocog Google tren 44822 24698
refcocog Google valor 5000 4650
refcocog umd tren 42226 21899
refcocog umd valor 2573 1300
refcocog umd prueba 5023 2600
  1. Siga las instrucciones de PythonAPI en https://github.com/cocodataset/cocoapi para obtener pycocotools y el archivo de anotaciones instances_train2014 de https://cocodataset.org/#download

  2. Agregue tanto refer.py de (1) como pycocotools de (2) a su PYTHONPATH.

  3. Ejecute manual_download_process.py para generar refcoco.json, reemplazando ref_data_root , coco_annotations_file y out_file con los valores correspondientes a donde ha descargado/quiere guardar estos archivos. Tenga en cuenta que manual_download_process.py se puede encontrar en el repositorio de TFDS.

  4. Descargue el conjunto de capacitación de COCO de https://cocodataset.org/#download y péguelo en una carpeta llamada coco_train2014/ . Mueva refcoco.json al mismo nivel que coco_train2014 .

  5. Siga las instrucciones estándar de descarga del manual.

  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
coco_anotaciones Secuencia
coco_anotaciones/área Tensor int64
coco_anotaciones/bbox BBoxCaracterística (4,) flotar32
coco_anotaciones/id Tensor int64
coco_anotaciones/etiqueta Tensor int64
imagen Imagen (Ninguno, Ninguno, 3) uint8
imagen/identificación Tensor int64
objetos Secuencia
objetos/área Tensor int64
objetos/bbox BBoxCaracterística (4,) flotar32
objetos/gt_box_index Tensor int64
objetos/identificación Tensor int64
objetos/etiqueta Tensor int64
objetos/refexp Secuencia
objetos/refexp/sin procesar Texto cadena
objetos/refexp/refexp_id Tensor int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (configuración predeterminada)

  • Tamaño del conjunto de datos : 3.24 GiB

  • Divisiones :

Separar Ejemplos
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

Visualización

ref_coco/refcoco_google

  • Tamaño del conjunto de datos : 4.60 GiB

  • Divisiones :

Separar Ejemplos
'test' 4,527
'train' 19,213
'validation' 4,559

Visualización

ref_coco/refcocoplus_unc

  • Tamaño del conjunto de datos : 3.24 GiB

  • Divisiones :

Separar Ejemplos
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

Visualización

ref_coco/refcocog_google

  • Tamaño del conjunto de datos : 4.59 GiB

  • Divisiones :

Separar Ejemplos
'train' 24,698
'validation' 4,650

Visualización

ref_coco/refcocog_umd

  • Tamaño del conjunto de datos : 4.04 GiB

  • Divisiones :

Separar Ejemplos
'test' 2,600
'train' 21,899
'validation' 1,300

Visualización