imagenet2012

ILSVRC 2012, powszechnie znany jako „ImageNet”, to zestaw danych obrazu zorganizowany zgodnie z hierarchią WordNet. Każda sensowna koncepcja w WordNet, prawdopodobnie opisana wieloma słowami lub frazami słownymi, nazywana jest „zbiorem synonimów” lub „synsetem”. W WordNet jest ponad 100 000 synsetów, większość z nich to rzeczowniki (ponad 80 000). W ImageNet staramy się dostarczać średnio 1000 obrazów ilustrujących każdy synset. Obrazy każdej koncepcji są kontrolowane pod względem jakości i opatrzone adnotacjami ludzkimi. Mamy nadzieję, że po zakończeniu ImageNet będzie oferować dziesiątki milionów przejrzyście posortowanych obrazów dla większości pojęć w hierarchii WordNet.

Podział testowy zawiera 100 000 obrazów, ale nie ma etykiet, ponieważ żadne etykiety nie zostały opublikowane. Zapewniamy wsparcie dla splitu testowego z 2012 roku wraz z mniejszą łatką wydaną 10 października 2019 roku. Aby ręcznie pobrać te dane, użytkownik musi wykonać następujące operacje:

  1. Pobierz split testowy 2012 dostępny tutaj .
  2. Pobierz aktualizację z 10 października 2019 r. Na tej samej stronie znajduje się link do Dysku Google do poprawki.
  3. Połącz dwie kule tar, ręcznie nadpisując wszystkie obrazy w oryginalnym archiwum obrazami z łatki. Zgodnie z instrukcjami na image-net.org ta procedura nadpisuje tylko kilka obrazów.

Powstała kula tar może być następnie przetwarzana przez TFDS.

Aby ocenić dokładność modelu na podziale testu ImageNet, należy przeprowadzić wnioskowanie na temat wszystkich obrazów w podziale, wyeksportować te wyniki do pliku tekstowego, który należy przesłać na serwer oceny ImageNet. Opiekunowie serwera ewaluacyjnego ImageNet zezwalają jednemu użytkownikowi na przesyłanie do 2 zgłoszeń tygodniowo, aby zapobiec nadmiernemu dopasowaniu.

Aby ocenić dokładność podziału testowego, należy najpierw założyć konto na image-net.org. To konto musi zostać zatwierdzone przez administratora serwisu. Po utworzeniu konta można przesłać wyniki na serwer testowy pod adresem https://image-net.org/challenges/LSVRC/eval_server.php . Zgłoszenie składa się z kilku plików tekstowych ASCII odpowiadających wielu zadaniom. Interesujące zadanie to „Przesłanie klasyfikacji (błąd cls 5 najlepszych)”. Przykład wyeksportowanego pliku tekstowego wygląda następująco:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Format eksportu jest w pełni opisany w „readme.txt” w pakiecie deweloperskim 2013 dostępnym tutaj: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Proszę zapoznać się z sekcją zatytułowaną „3.3 CLS-LOC format podania". W skrócie, format pliku tekstowego to 100 000 linii odpowiadających każdemu obrazowi w podziale testowym. Każdy wiersz liczb całkowitych odpowiada uporządkowanym według rangi 5 najlepszym prognozom dla każdego obrazu testowego. Liczby całkowite mają indeks 1 i odpowiadają numerowi wiersza w odpowiednim pliku etykiet. Zobacz plik labels.txt.

  • Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na

  • Strona główna : https://image-net.org/

  • Kod źródłowy : tfds.datasets.imagenet2012.Builder

  • Wersje :

    • 2.0.0 : Napraw etykiety sprawdzania poprawności.
    • 2.0.1 : Poprawka kodowania. Bez zmian z punktu widzenia użytkownika.
    • 3.0.0 : Naprawiono kolorowanie na ~12 obrazach (CMYK -> RGB). Popraw format, aby uzyskać spójność (przekonwertuj pojedynczy obraz png na Jpeg). Szybsze generowanie odczytu bezpośrednio z archiwum.

    • 4.0.0 : (nieopublikowane)

    • 5.0.0 : Nowy podzielony interfejs API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (domyślnie): Dodano podział testu.

  • Rozmiar pliku do pobrania : Unknown size

  • Rozmiar zestawu danych : 155.84 GiB

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir powinien zawierać dwa pliki: ILSVRC2012_img_train.tar i ILSVRC2012_img_val.tar. Musisz zarejestrować się na https://image-net.org/download-images , aby uzyskać link do pobrania zestawu danych.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 100 000
'train' 1 281 167
'validation' 50 000
  • Struktura funkcji :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
Nazwa pliku Tekst strunowy
obraz Obraz (Brak, Brak, 3) uint8
etykieta Etykieta klasy int64

Wyobrażanie sobie

  • Cytat :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}