imagenet2012

ILSVRC 2012, umumnya dikenal sebagai 'ImageNet' adalah kumpulan data gambar yang diatur menurut hierarki WordNet. Setiap konsep bermakna di WordNet, mungkin dijelaskan oleh beberapa kata atau frase kata, disebut "set sinonim" atau "synset". Ada lebih dari 100.000 sinset di WordNet, sebagian besar adalah kata benda (80.000+). Di ImageNet, kami bertujuan untuk menyediakan rata-rata 1000 gambar untuk mengilustrasikan setiap synset. Gambar dari setiap konsep dikontrol kualitasnya dan diberi anotasi manusia. Dalam penyelesaiannya, kami berharap ImageNet akan menawarkan puluhan juta gambar yang diurutkan dengan rapi untuk sebagian besar konsep dalam hierarki WordNet.

Pemisahan pengujian berisi 100 ribu gambar tetapi tidak ada label karena tidak ada label yang dirilis ke publik. Kami memberikan dukungan untuk pemisahan pengujian dari tahun 2012 dengan patch minor yang dirilis pada tanggal 10 Oktober 2019. Untuk mengunduh data ini secara manual, pengguna harus melakukan operasi berikut:

  1. Unduh test split 2012 yang tersedia di sini .
  2. Unduh patch 10 Oktober 2019. Ada tautan Google Drive ke tambalan yang disediakan di halaman yang sama.
  3. Gabungkan dua bola-tar, secara manual menimpa gambar apa pun di arsip asli dengan gambar dari tambalan. Menurut petunjuk di image-net.org, prosedur ini menimpa beberapa gambar saja.

Tar-ball yang dihasilkan kemudian dapat diproses oleh TFDS.

Untuk menilai keakuratan model pada pemisahan pengujian ImageNet, seseorang harus menjalankan inferensi pada semua gambar dalam pemisahan, mengekspor hasil tersebut ke file teks yang harus diunggah ke server evaluasi ImageNet. Pengelola server evaluasi ImageNet mengizinkan satu pengguna untuk mengirimkan hingga 2 pengiriman per minggu untuk mencegah overfitting.

Untuk mengevaluasi keakuratan test split, pertama-tama seseorang harus membuat akun di image-net.org. Akun ini harus disetujui oleh administrator situs. Setelah akun dibuat, seseorang dapat mengirimkan hasilnya ke server pengujian di https://image-net.org/challenges/LSVRC/eval_server.php Pengajuan terdiri dari beberapa file teks ASCII yang terkait dengan beberapa tugas. Tugas yang menarik adalah "Pengajuan klasifikasi (kesalahan top-5 cls)". Contoh file teks yang diekspor terlihat seperti berikut:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Format ekspor dijelaskan secara lengkap di "readme.txt" dalam kit pengembangan 2013 yang tersedia di sini: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Silakan lihat bagian berjudul "3.3 CLS-LOC format penyerahan". Secara singkat, format file teks adalah 100.000 baris yang sesuai dengan setiap gambar dalam test split. Setiap baris bilangan bulat sesuai dengan urutan peringkat, 5 prediksi teratas untuk setiap gambar uji. Bilangan bulat diindeks 1 sesuai dengan nomor baris dalam file label yang sesuai. Lihat labels.txt.

  • Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode

  • Beranda : https://image-net.org/

  • Kode sumber : tfds.datasets.imagenet2012.Builder

  • Versi :

    • 2.0.0 : Perbaiki label validasi.
    • 2.0.1 : Perbaikan pengodean. Tidak ada perubahan dari sudut pandang pengguna.
    • 3.0.0 : Perbaiki pewarnaan pada ~12 gambar (CMYK -> RGB). Perbaiki format untuk konsistensi (konversi gambar png tunggal ke Jpeg). Pembacaan generasi lebih cepat langsung dari arsip.

    • 4.0.0 : (belum dipublikasikan)

    • 5.0.0 : API split baru ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (default): Penambahan test split.

  • Ukuran unduhan : Unknown size

  • Ukuran dataset : 155.84 GiB

  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir harus berisi dua file: ILSVRC2012_img_train.tar dan ILSVRC2012_img_val.tar. Anda harus mendaftar di https://image-net.org/download-images untuk mendapatkan tautan untuk mengunduh dataset.

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Struktur fitur :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
nama file Teks rangkaian
gambar Gambar (Tidak ada, Tidak ada, 3) uint8
label LabelKelas int64

Visualisasi

  • Kutipan :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}