imagenet2012

ILSVRC 2012, comúnmente conocido como 'ImageNet', es un conjunto de datos de imágenes organizado según la jerarquía de WordNet. Cada concepto significativo en WordNet, posiblemente descrito por varias palabras o frases de palabras, se denomina "conjunto de sinónimos" o "synset". Hay más de 100.000 synsets en WordNet, la mayoría de ellos son sustantivos (más de 80.000). En ImageNet, nuestro objetivo es proporcionar un promedio de 1000 imágenes para ilustrar cada synset. Las imágenes de cada concepto tienen control de calidad y anotaciones humanas. Al completarse, esperamos que ImageNet ofrezca decenas de millones de imágenes limpiamente ordenadas para la mayoría de los conceptos en la jerarquía de WordNet.

La división de prueba contiene imágenes de 100 000, pero no etiquetas porque no se han publicado etiquetas. Brindamos soporte para la división de prueba de 2012 con el parche menor lanzado el 10 de octubre de 2019. Para descargar manualmente estos datos, el usuario debe realizar las siguientes operaciones:

  1. Descargue la división de prueba de 2012 disponible aquí .
  2. Descargue el parche del 10 de octubre de 2019. Hay un enlace de Google Drive al parche proporcionado en la misma página.
  3. Combine las dos bolas de alquitrán, sobrescribiendo manualmente cualquier imagen en el archivo original con imágenes del parche. De acuerdo con las instrucciones de image-net.org, este procedimiento sobrescribe solo unas pocas imágenes.

La bola de alquitrán resultante puede luego ser procesada por TFDS.

Para evaluar la precisión de un modelo en la división de prueba de ImageNet, se debe ejecutar la inferencia en todas las imágenes de la división y exportar esos resultados a un archivo de texto que se debe cargar en el servidor de evaluación de ImageNet. Los mantenedores del servidor de evaluación de ImageNet permiten que un solo usuario envíe hasta 2 envíos por semana para evitar el sobreajuste.

Para evaluar la precisión de la división de prueba, primero debe crear una cuenta en image-net.org. Esta cuenta debe ser aprobada por el administrador del sitio. Después de crear la cuenta, se pueden enviar los resultados al servidor de prueba en https://image-net.org/challenges/LSVRC/eval_server.php El envío consta de varios archivos de texto ASCII correspondientes a múltiples tareas. La tarea de interés es "Envío de clasificación (error de cls top-5)". Una muestra de un archivo de texto exportado tiene el siguiente aspecto:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

El formato de exportación se describe en su totalidad en "readme.txt" dentro del kit de desarrollo de 2013 disponible aquí: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Consulte la sección titulada "3.3 CLS-LOC formato de presentación". Brevemente, el formato del archivo de texto es de 100.000 líneas correspondientes a cada imagen en la división de prueba. Cada línea de números enteros corresponde a las 5 predicciones principales ordenadas por rango para cada imagen de prueba. Los números enteros están indexados en 1 correspondiente al número de línea en el archivo de etiquetas correspondiente. Ver etiquetas.txt.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio: https://image-net.org/

  • Código fuente : tfds.datasets.imagenet2012.Builder

  • Versiones :

    • 2.0.0 : Corregir etiquetas de validación.
    • 2.0.1 : Corrección de codificación. Sin cambios desde el punto de vista del usuario.
    • 3.0.0 : corrige la coloración en ~12 imágenes (CMYK -> RGB). Corrija el formato para mantener la coherencia (convierta la imagen png única a Jpeg). Lectura de generación más rápida directamente desde el archivo.

    • 4.0.0 : (inédito)

    • 5.0.0 : nueva API dividida ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (predeterminado): división de prueba agregada.

  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : 155.84 GiB

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir debe contener dos archivos: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. Debe registrarse en https://image-net.org/download-images para obtener el enlace para descargar el conjunto de datos.

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • Estructura de características :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
Nombre del archivo Texto cuerda
imagen Imagen (Ninguno, Ninguno, 3) uint8
etiqueta Etiqueta de clase int64

Visualización

  • Cita :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}