imagenet2012

  • Description :

ILSVRC 2012, communément appelé « ImageNet », est un ensemble de données d'images organisé selon la hiérarchie WordNet. Chaque concept significatif dans WordNet, éventuellement décrit par plusieurs mots ou expressions de mots, est appelé « ensemble de synonymes » ou « synset ». Il existe plus de 100 000 synsets dans WordNet, dont la majorité sont des noms (plus de 80 000). Dans ImageNet, nous visons à fournir en moyenne 1000 images pour illustrer chaque synset. Les images de chaque concept sont contrôlées en qualité et annotées par des humains. Une fois terminé, nous espérons qu'ImageNet offrira des dizaines de millions d'images proprement triées pour la plupart des concepts de la hiérarchie WordNet.

La division de test contient 100 000 images mais aucune étiquette car aucune étiquette n'a été rendue publique. Nous prenons en charge la répartition des tests de 2012 avec le correctif mineur publié le 10 octobre 2019. Afin de télécharger manuellement ces données, un utilisateur doit effectuer les opérations suivantes :

  1. Téléchargez la répartition des tests 2012 disponible ici .
  2. Téléchargez le patch du 10 octobre 2019. Il existe un lien Google Drive vers le correctif fourni sur la même page.
  3. Combinez les deux boules tar, en écrasant manuellement toutes les images de l'archive d'origine par les images du patch. Selon les instructions sur image-net.org, cette procédure n'écrase que quelques images.

La boule tar résultante peut ensuite être traitée par TFDS.

Pour évaluer l'exactitude d'un modèle sur la division de test ImageNet, il faut exécuter l'inférence sur toutes les images de la division, exporter ces résultats vers un fichier texte qui doit être téléchargé sur le serveur d'évaluation ImageNet. Les responsables du serveur d'évaluation ImageNet permettent à un seul utilisateur de soumettre jusqu'à 2 soumissions par semaine afin d'éviter le surajustement.

Pour évaluer la précision de la répartition du test, il faut d'abord créer un compte sur image-net.org. Ce compte doit être approuvé par l'administrateur du site. Une fois le compte créé, on peut soumettre les résultats au serveur de test à l'adresse https://image-net.org/challenges/LSVRC/eval_server.php La soumission se compose de plusieurs fichiers texte ASCII correspondant à plusieurs tâches. La tâche qui nous intéresse est "Soumission de la classification (erreur top-5 cls)". Un exemple de fichier texte exporté ressemble à ceci :

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Le format d'export est décrit intégralement dans "readme.txt" dans le kit de développement 2013 disponible ici : https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Veuillez consulter la section intitulée "3.3 CLS-LOC format de soumission". En bref, le format du fichier texte est de 100 000 lignes correspondant à chaque image de la répartition de test. Chaque ligne d’entiers correspond aux 5 meilleures prédictions classées pour chaque image de test. Les entiers sont indexés 1 correspondant au numéro de ligne dans le fichier d'étiquettes correspondant. Voir labels.txt.

  • Documentation supplémentaire : Explorer sur les articles avec le code

  • Page d'accueil : https://image-net.org/

  • Code source : tfds.datasets.imagenet2012.Builder

  • Versions :

    • 2.0.0 : Correction des étiquettes de validation.
    • 2.0.1 : Correction de l'encodage. Aucun changement du point de vue de l'utilisateur.
    • 3.0.0 : Correction de la colorisation sur ~12 images (CMJN -> RVB). Correction du format pour plus de cohérence (convertir l'image png unique en Jpeg). Lecture de génération plus rapide directement à partir de l’archive.

    • 4.0.0 : (non publié)

    • 5.0.0 : Nouvelle API fractionnée ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (par défaut) : ajout d'une division de test.

  • Taille du téléchargement : Unknown size

  • Taille de l'ensemble de données : 155.84 GiB

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez les données sources manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    manual_dir doit contenir deux fichiers : ILSVRC2012_img_train.tar et ILSVRC2012_img_val.tar. Vous devez vous inscrire sur https://image-net.org/download-images afin d'obtenir le lien pour télécharger l'ensemble de données.

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 100 000
'train' 1 281 167
'validation' 50 000
  • Structure des fonctionnalités :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
nom de fichier Texte chaîne
image Image (Aucun, Aucun, 3) uint8
étiquette Étiquette de classe int64

Visualisation

  • Citation :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}