imagenet2012_subset

Описание :

ILSVRC 2012, широко известный как ImageNet, представляет собой набор данных изображений, организованный в соответствии с иерархией WordNet. Каждое значимое понятие в WordNet, возможно, описываемое несколькими словами или словосочетаниями, называется «набором синонимов» или «синсетом». В WordNet более 100 000 синсетов, большинство из них — существительные (80 000+). В ImageNet мы стремимся предоставить в среднем 1000 изображений для иллюстрации каждого синсета. Изображения каждой концепции проходят контроль качества и аннотируются человеком. Мы надеемся, что после завершения ImageNet предложит десятки миллионов четко отсортированных изображений для большинства понятий в иерархии WordNet.

Тестовый сплит содержит 100 тысяч изображений, но не содержит меток, поскольку ни одна метка не была опубликована публично. Мы обеспечиваем поддержку тестового сплита 2012 года с помощью минорного патча, выпущенного 10 октября 2019 года. Чтобы загрузить эти данные вручную, пользователю необходимо выполнить следующие операции:

Скачать тестовый сплит 2012 года можно здесь .
Загрузите патч от 10 октября 2019 г. На той же странице есть ссылка на патч на Google Диске.
Объедините два tar-шара, вручную перезаписав все изображения в исходном архиве изображениями из патча. Согласно инструкции на image-net.org, эта процедура перезаписывает всего несколько изображений.

Полученный tar-шар затем может быть обработан TFDS.

Чтобы оценить точность модели в тестовом сплите ImageNet, необходимо выполнить логический вывод для всех изображений в сплите, экспортировать эти результаты в текстовый файл, который необходимо загрузить на оценочный сервер ImageNet. Сопровождающие оценочного сервера ImageNet разрешают одному пользователю отправлять до двух заявок в неделю, чтобы избежать переобучения.

Чтобы оценить точность тестового разделения, необходимо сначала создать учетную запись на image-net.org. Эта учетная запись должна быть одобрена администратором сайта. После создания учетной записи можно отправить результаты на тестовый сервер по адресу https://image-net.org/challenges/LSVRC/eval_server.php. Отправка состоит из нескольких текстовых файлов ASCII, соответствующих нескольким задачам. Интересующая задача — «Подача классификации (ошибка топ-5 cls)». Пример экспортированного текстового файла выглядит следующим образом:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Формат экспорта полностью описан в «readme.txt» в комплекте разработки 2013 года, доступном здесь: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz. См. раздел «3.3 CLS-LOC». Форма подачи». Вкратце, формат текстового файла составляет 100 000 строк, соответствующих каждому изображению в тестовом фрагменте. Каждая строка целых чисел соответствует 5-ти лучшим предсказаниям для каждого тестового изображения. Целые числа имеют индекс 1, соответствующий номеру строки в соответствующем файле меток. См. labels.txt.

Домашняя страница : http://image-net.org/
Исходный код : tfds.datasets.imagenet2012_subset.Builder
Версии :
- 2.0.0 : исправлены метки проверки.
- 2.0.1 : Исправление кодировки. Никаких изменений с точки зрения пользователя.
- 3.0.0 : исправлена раскраска примерно 12 изображений (CMYK -> RGB). Исправьте формат для обеспечения единообразия (конвертируйте одно изображение PNG в Jpeg). Ускоренное поколение чтения прямо из архива.
- 4.0.0 : (неопубликовано)
- 5.0.0 (по умолчанию): новый API разделения ( https://tensorflow.org/datasets/splits )
- 5.1.0 : Добавлено тестовое разделение.
Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
manual_dir должен содержать два файла: ILSVRC2012_img_train.tar и ILSVRC2012_img_val.tar. Вам необходимо зарегистрироваться на https://image-net.org/download-images , чтобы получить ссылку для загрузки набора данных.
Автокэширование ( документация ): Нет
Структура функции :

FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
имя файла	Текст		нить
изображение	Изображение	(Нет, Нет, 3)	uint8
этикетка	Класслейбл		int64

Контролируемые ключи (см. документ as_supervised ): ('image', 'label')
Цитата :

@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}

imagenet2012_subset/1pct (конфигурация по умолчанию)

Описание конфигурации : 1 процент от общего набора обучающих программ ImageNet.
Размер загрузки : 254.22 KiB
Размер набора данных : 7.61 GiB
Расколы :

Расколоть	Примеры
`'train'`	12 811
`'validation'`	50 000

Рисунок ( tfds.show_examples ):

Визуализация

Примеры ( tfds.as_dataframe ):

imagenet2012_subset/10%

Описание конфигурации : 10 процентов от общего набора обучающих программ ImageNet.
Размер загрузки : 2.48 MiB
Размер набора данных : 19.91 GiB
Расколы :

Расколоть	Примеры
`'train'`	128 116
`'validation'`	50 000

Рисунок ( tfds.show_examples ):

Визуализация

Примеры ( tfds.as_dataframe ):