- Tanım :
Yaygın olarak 'ImageNet' olarak bilinen ILSVRC 2012, WordNet hiyerarşisine göre düzenlenen bir görüntü veri kümesidir. WordNet'teki, muhtemelen birden fazla kelime veya kelime öbeğiyle tanımlanan her anlamlı kavrama, "eşanlamlı küme" veya "sözdizimi" adı verilir. WordNet'te 100.000'den fazla synset vardır ve bunların çoğunluğu isimlerdir (80.000+). ImageNet'te her bir synset'i göstermek için ortalama 1000 görüntü sağlamayı hedefliyoruz. Her konseptin görselleri kalite kontrollüdür ve insan açıklamalıdır. Tamamlandığında, ImageNet'in WordNet hiyerarşisindeki kavramların çoğu için on milyonlarca temiz şekilde sıralanmış görüntü sunacağını umuyoruz.
Test bölümü 100.000 görüntü içeriyor ancak hiçbir etiket kamuya açıklanmadığından etiket yok. 10 Ekim 2019'da yayınlanan küçük yama ile 2012'den itibaren test bölümü desteği sağlıyoruz. Bu verileri manuel olarak indirmek için kullanıcının aşağıdaki işlemleri gerçekleştirmesi gerekir:
- 2012 test bölümünü buradan indirin.
- 10 Ekim 2019 yamasını indirin. Aynı sayfada sağlanan yamaya yönelik bir Google Drive bağlantısı bulunmaktadır.
- İki katran topunu birleştirerek orijinal arşivdeki herhangi bir görselin üzerine yamadaki görselleri manuel olarak yazın. image-net.org'daki talimatlara göre, bu prosedür yalnızca birkaç resmin üzerine yazar.
Ortaya çıkan katran topu daha sonra TFDS tarafından işlenebilir.
ImageNet test bölümündeki bir modelin doğruluğunu değerlendirmek için, bölmedeki tüm görüntüler üzerinde çıkarım yapılmalı, bu sonuçlar ImageNet değerlendirme sunucusuna yüklenmesi gereken bir metin dosyasına aktarılmalıdır. ImageNet değerlendirme sunucusunun bakımcıları, aşırı yüklemeyi önlemek amacıyla tek bir kullanıcının haftada en fazla 2 gönderim göndermesine izin verir.
Test bölümünün doğruluğunu değerlendirmek için öncelikle image-net.org'da bir hesap oluşturulmalıdır. Bu hesabın site yöneticisi tarafından onaylanması gerekir. Hesap oluşturulduktan sonra sonuçlar https://image-net.org/challenges/LSVRC/eval_server.php adresindeki test sunucusuna gönderilebilir. Gönderim, birden fazla göreve karşılık gelen çeşitli ASCII metin dosyalarından oluşur. İlgilenilen görev "Sınıflandırma gönderimi (ilk 5 cls hatası)" dır. Dışa aktarılan bir metin dosyasının örneği aşağıdakine benzer:
771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168
Dışa aktarma formatı, burada bulunan 2013 geliştirme kitindeki "readme.txt" dosyasında tam olarak açıklanmıştır: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Lütfen "3.3 CLS-LOC" başlıklı bölüme bakın. gönderme biçimi". Kısaca metin dosyasının formatı, test bölümündeki her görsele karşılık gelen 100.000 satırdır. Her bir tamsayı satırı, her test görüntüsü için sıralı, ilk 5 tahmine karşılık gelir. Tamsayılar, karşılık gelen etiketler dosyasındaki satır numarasına karşılık gelen 1-indekslidir. Bkz. labels.txt.
Ana sayfa : https://image-net.org/
Kaynak kodu :
tfds.datasets.imagenet2012.Builder
Sürümler :
-
2.0.0
: Doğrulama etiketlerini düzeltin. -
2.0.1
: Kodlama düzeltmesi. Kullanıcı açısından herhangi bir değişiklik yok. 3.0.0
: ~12 görüntüdeki renklendirmeyi düzeltin (CMYK -> RGB). Tutarlılık için formatı düzeltin (tek png görüntüsünü Jpeg'e dönüştürün). Doğrudan arşivden daha hızlı nesil okuma.4.0.0
: (yayınlanmadı)5.0.0
: Yeni bölünmüş API ( https://tensorflow.org/datasets/splits )5.1.0
(varsayılan): Test bölümü eklendi.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
155.84 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verilerini manuel olarak
download_config.manual_dir
içine indirmenizi gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
şeklindedir):
manual_dir iki dosya içermelidir: ILSVRC2012_img_train.tar ve ILSVRC2012_img_val.tar. Veri kümesini indirme bağlantısını almak için https://image-net.org/download-images adresine kaydolmanız gerekir.Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 100.000 |
'train' | 1.281.167 |
'validation' | 50.000 |
- Özellik yapısı :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
dosya adı | Metin | sicim | ||
resim | Resim | (Yok, Yok, 3) | uint8 | |
etiket | SınıfEtiketi | int64 |
Denetlenen anahtarlar (
as_supervised
belgesine bakın):('image', 'label')
Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}