imagenet2012

ILSVRC 2012, широко известный как «ImageNet», представляет собой набор данных изображений, организованный в соответствии с иерархией WordNet. Каждое значимое понятие в WordNet, возможно, описываемое несколькими словами или словосочетаниями, называется «набором синонимов» или «синсетом». В WordNet более 100 000 синсетов, большинство из них — существительные (80 000+). В ImageNet мы стремимся предоставить в среднем 1000 изображений для иллюстрации каждого синсета. Изображения каждой концепции проходят контроль качества и аннотируются человеком. Мы надеемся, что после его завершения ImageNet предложит десятки миллионов четко отсортированных изображений для большинства понятий в иерархии WordNet.

Тестовый сплит содержит 100 000 изображений, но не содержит ярлыков, так как ни один из них не был опубликован. Мы обеспечиваем поддержку тестового сплита 2012 года с небольшим патчем, выпущенным 10 октября 2019 года. Чтобы вручную загрузить эти данные, пользователь должен выполнить следующие операции:

  1. Скачать тестовый сплит 2012 года можно здесь .
  2. Загрузите исправление от 10 октября 2019 г. На той же странице есть ссылка на патч с Google Диска.
  3. Объедините два тарбола, вручную перезаписав любые изображения в исходном архиве изображениями из патча. Согласно инструкции на image-net.org, эта процедура перезаписывает всего несколько изображений.

Полученный tar-ball затем может быть обработан TFDS.

Чтобы оценить точность модели в тестовом расщеплении ImageNet, необходимо выполнить вывод на всех изображениях в расщеплении, экспортировать эти результаты в текстовый файл, который необходимо загрузить на сервер оценки ImageNet. Специалисты по обслуживанию оценочного сервера ImageNet разрешают одному пользователю отправлять до 2 материалов в неделю, чтобы предотвратить переоснащение.

Чтобы оценить точность тестового разделения, необходимо сначала создать учетную запись на image-net.org. Эта учетная запись должна быть одобрена администратором сайта. После создания учетной записи можно отправить результаты на тестовый сервер по адресу https://image-net.org/challenges/LSVRC/eval_server.php . Представление состоит из нескольких текстовых файлов ASCII, соответствующих нескольким задачам. Интересующая задача: «Подача классификации (top-5 cls error)». Пример экспортированного текстового файла выглядит следующим образом:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Формат экспорта полностью описан в файле «readme.txt» пакета разработки 2013 года, доступного здесь: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz См. раздел «3.3 CLS-LOC». формат подачи». Вкратце, формат текстового файла составляет 100 000 строк, соответствующих каждому изображению в тестовом разделении. Каждая строка целых чисел соответствует упорядоченным по рангу 5 лучшим предсказаниям для каждого тестового изображения. Целые числа имеют индекс 1, соответствующий номеру строки в соответствующем файле меток. См. imagenet2012_labels.txt.

  • Домашняя страница : https://image-net.org/

  • Исходный код : tfds.image_classification.Imagenet2012

  • Версии :

    • 2.0.0 : Исправлены метки проверки.
    • 2.0.1 : Исправление кодировки. Никаких изменений с точки зрения пользователя.
    • 3.0.0 : исправление раскрашивания примерно на 12 изображениях (CMYK -> RGB). Исправьте формат для согласованности (конвертируйте одиночное изображение png в Jpeg). Более быстрое чтение генерации прямо из архива.

    • 4.0.0 : (неопубликовано)

    • 5.0.0 : Новый сплит API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (по умолчанию): добавлен тестовый сплит.

  • Размер загрузки : Unknown size

  • Размер набора данных : 155.84 GiB

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir должен содержать два файла: ILSVRC2012_img_train.tar и ILSVRC2012_img_val.tar. Вам необходимо зарегистрироваться на https://image-net.org/download-images , чтобы получить ссылку для загрузки набора данных.

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 100 000
'train' 1 281 167
'validation' 50 000
  • Структура функции :
FeaturesDict({
    'file_name': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1000),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
имя файла Текст tf.string
изображение Изображение (Нет, Нет, 3) tf.uint8
этикетка Метка класса tf.int64

Визуализация

  • Цитата :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}