imagenet2012

ILSVRC 2012, comunemente noto come 'ImageNet' è un set di dati di immagini organizzato secondo la gerarchia di WordNet. Ogni concetto significativo in WordNet, possibilmente descritto da più parole o frasi di parole, è chiamato "insieme di sinonimi" o "insieme di sinonimi". Ci sono più di 100.000 synset in WordNet, la maggior parte dei quali sono sostantivi (oltre 80.000). In ImageNet, miriamo a fornire in media 1000 immagini per illustrare ogni synset. Le immagini di ogni concetto sono controllate dalla qualità e annotate dall'uomo. Al suo completamento, speriamo che ImageNet offra decine di milioni di immagini ordinate in modo pulito per la maggior parte dei concetti nella gerarchia di WordNet.

La suddivisione del test contiene 100.000 immagini ma nessuna etichetta perché nessuna etichetta è stata rilasciata pubblicamente. Forniamo supporto per il test split dal 2012 con la patch minore rilasciata il 10 ottobre 2019. Per scaricare manualmente questi dati, un utente deve eseguire le seguenti operazioni:

  1. Scarica il test split 2012 disponibile qui .
  2. Scarica la patch del 10 ottobre 2019. Nella stessa pagina è presente un collegamento di Google Drive alla patch fornita.
  3. Combina i due tar-ball, sovrascrivendo manualmente qualsiasi immagine nell'archivio originale con le immagini della patch. Secondo le istruzioni su image-net.org, questa procedura sovrascrive solo alcune immagini.

Il tar-ball risultante può quindi essere elaborato da TFDS.

Per valutare l'accuratezza di un modello sulla divisione del test ImageNet, è necessario eseguire l'inferenza su tutte le immagini nella divisione, esportare i risultati in un file di testo che deve essere caricato sul server di valutazione ImageNet. I manutentori del server di valutazione ImageNet consentono a un singolo utente di inviare fino a 2 invii a settimana per evitare l'overfitting.

Per valutare l'accuratezza della suddivisione del test, è necessario prima creare un account su image-net.org. Questo account deve essere approvato dall'amministratore del sito. Dopo aver creato l'account, è possibile inviare i risultati al server di test all'indirizzo https://image-net.org/challenges/LSVRC/eval_server.php L'invio consiste in diversi file di testo ASCII corrispondenti a più attività. L'attività di interesse è "Invio classificazione (errore top-5 cls)". Un esempio di un file di testo esportato è simile al seguente:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Il formato di esportazione è descritto per intero in "readme.txt" all'interno del kit di sviluppo 2013 disponibile qui: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Si prega di consultare la sezione intitolata "3.3 CLS-LOC formato di presentazione". In breve, il formato del file di testo è di 100.000 righe corrispondenti a ciascuna immagine nella suddivisione del test. Ogni riga di numeri interi corrisponde alle prime 5 previsioni ordinate per rango per ciascuna immagine di prova. Gli interi sono indicizzati 1 corrispondente al numero di riga nel file delle etichette corrispondente. Vedere etichette.txt.

  • Documentazione aggiuntiva : Esplora documenti con codice

  • Pagina iniziale : https://image-net.org/

  • Codice sorgente : tfds.datasets.imagenet2012.Builder

  • Versioni :

    • 2.0.0 : correzione delle etichette di convalida.
    • 2.0.1 : correzione della codifica. Nessuna modifica dal punto di vista dell'utente.
    • 3.0.0 : correzione della colorazione su ~ 12 immagini (CMYK -> RGB). Correggi il formato per coerenza (converti la singola immagine png in Jpeg). Generazione più rapida lettura direttamente dall'archivio.

    • 4.0.0 : (non pubblicato)

    • 5.0.0 : Nuova API divisa ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (impostazione predefinita): Aggiunta la suddivisione del test.

  • Dimensioni del download : Unknown size

  • Dimensione del set di dati: 155.84 GiB

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir dovrebbe contenere due file: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. È necessario registrarsi su https://image-net.org/download-images per ottenere il collegamento per scaricare il set di dati.

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
nome del file Testo corda
Immagine Immagine (Nessuno, Nessuno, 3) uint8
etichetta ClassLabel int64

Visualizzazione

  • Citazione :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}