imagenet2012

ILSVRC 2012, communément appelé « ImageNet », est un jeu de données d'images organisé selon la hiérarchie WordNet. Chaque concept significatif dans WordNet, éventuellement décrit par plusieurs mots ou expressions de mots, est appelé un "ensemble de synonymes" ou "synset". Il y a plus de 100 000 synsets dans WordNet, la majorité d'entre eux sont des noms (80 000+). Dans ImageNet, nous visons à fournir en moyenne 1000 images pour illustrer chaque synset. Les images de chaque concept sont contrôlées par la qualité et annotées par l'homme. Dans son achèvement, nous espérons qu'ImageNet offrira des dizaines de millions d'images proprement triées pour la plupart des concepts de la hiérarchie WordNet.

La partie test contient 100 000 images, mais aucune étiquette, car aucune étiquette n'a été rendue publique. Nous assurons le support du test split à partir de 2012 avec le patch mineur publié le 10 octobre 2019. Afin de télécharger manuellement ces données, un utilisateur doit effectuer les opérations suivantes :

  1. Téléchargez le test split 2012 disponible ici .
  2. Téléchargez le correctif du 10 octobre 2019. Il existe un lien Google Drive vers le correctif fourni sur la même page.
  3. Combinez les deux boules de tar, en écrasant manuellement toutes les images de l'archive d'origine avec des images du patch. Selon les instructions sur image-net.org, cette procédure n'écrase que quelques images.

L'archive tar résultante peut ensuite être traitée par TFDS.

Pour évaluer la précision d'un modèle sur la division de test ImageNet, il faut exécuter l'inférence sur toutes les images de la division, exporter ces résultats dans un fichier texte qui doit être téléchargé sur le serveur d'évaluation ImageNet. Les mainteneurs du serveur d'évaluation ImageNet permettent à un seul utilisateur de soumettre jusqu'à 2 soumissions par semaine afin d'éviter le surajustement.

Pour évaluer l'exactitude de la répartition de test, il faut d'abord créer un compte sur image-net.org. Ce compte doit être approuvé par l'administrateur du site. Une fois le compte créé, on peut soumettre les résultats au serveur de test à https://image-net.org/challenges/LSVRC/eval_server.php La soumission se compose de plusieurs fichiers texte ASCII correspondant à plusieurs tâches. La tâche qui nous intéresse est "Soumission de la classification (erreur top-5 cls)". Un exemple de fichier texte exporté ressemble à ceci :

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Le format d'exportation est décrit en détail dans "readme.txt" dans le kit de développement 2013 disponible ici : https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Veuillez consulter la section intitulée "3.3 CLS-LOC format de soumission ». Brièvement, le format du fichier texte est de 100 000 lignes correspondant à chaque image du fractionnement de test. Chaque ligne de nombres entiers correspond aux 5 meilleures prédictions classées par ordre pour chaque image de test. Les entiers sont indexés à 1 correspondant au numéro de ligne dans le fichier d'étiquettes correspondant. Voir étiquettes.txt.

  • Documentation complémentaire : Explorer sur Papers With Code

  • Page d' accueil : https://image-net.org/

  • Code source : tfds.datasets.imagenet2012.Builder

  • Versions :

    • 2.0.0 : Correction des étiquettes de validation.
    • 2.0.1 : Correction de l'encodage. Aucun changement du point de vue de l'utilisateur.
    • 3.0.0 : Correction de la colorisation sur ~12 images (CMJN -> RVB). Correction du format pour plus de cohérence (convertir l'image png unique en Jpeg). Génération plus rapide en lisant directement à partir de l'archive.

    • 4.0.0 : (inédit)

    • 5.0.0 : Nouvelle API fractionnée ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (par défaut) : ajout d'un fractionnement de test.

  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : 155.84 GiB

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    manual_dir doit contenir deux fichiers : ILSVRC2012_img_train.tar et ILSVRC2012_img_val.tar. Vous devez vous inscrire sur https://image-net.org/download-images afin d'obtenir le lien pour télécharger l'ensemble de données.

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 100 000
'train' 1 281 167
'validation' 50 000
  • Structure des fonctionnalités :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
nom de fichier Texte chaîne de caractères
image Image (Aucun, Aucun, 3) uint8
étiquette Étiquette de classe int64

Visualisation

  • Citation :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}