контролируемые_шумные_web_labels

Описание :

Контролируемые шумовые веб-метки — это набор из примерно 212 000 URL-адресов изображений, в которых каждое изображение тщательно аннотируется 3–5 специалистами по маркировке с помощью Google Cloud Data Labeling Service. Используя эти аннотации, он устанавливает первый эталон контролируемого реального шума этикеток из Интернета.

Мы предоставляем конфигурации Red Mini-ImageNet (реальный веб-шум) и Blue Mini-ImageNet:

Каждая конфигурация содержит десять вариантов с десятью уровнями шума p от 0% до 80%. Проверочный набор имеет чистые метки и является общим для всех зашумленных обучающих наборов. Поэтому каждый конфиг имеет следующие разбиения:

поезд_00
поезд_05
поезд_10
поезд_15
поезд_20
поезд_30
поезд_40
поезд_50
поезд_60
поезд_80
Проверка

Подробности построения и анализа набора данных можно найти в документе. Все изображения изменены до разрешения 84x84.

Домашняя страница : https://google.github.io/controller-noisy-web-labels/index.html
Исходный код : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Размер загрузки : 1.83 MiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Чтобы вручную загрузить эти данные, пользователь должен выполнить следующие операции:

Скачать сплиты и аннотации здесь
Распакуйте dataset_no_images.zip в dataset_no_images/.
Загрузите все изображения из dataset_no_images/mini-imagenet-annotations.json в новую папку с именем dataset_no_images/noisy_images/. Имя выходного файла должно совпадать с идентификатором изображения, указанным в mini-imagenet-annotations.json. Например, если "image/id": "5922767e5677aef4", то загруженное изображение должно иметь вид dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Зарегистрируйтесь на https://image-net.org/download-images и загрузите ILSVRC2012_img_train.tar и ILSVRC2012_img_val.tar.

Полученная структура каталогов затем может быть обработана TFDS:

набор данных_no_images/
- мини-имагенет/
- class_name.txt
- расколоть/
  - blue_noise_nl_0.0
  - blue_noise_nl_0.1
  - ...
  - красный_шум_nl_0.0
  - красный_шум_nl_0.1
  - ...
  - чистая_валидация
- мини-imagenet-annotations.json
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
шумные_изображения/
- 5922767e5677aef4.jpg
Автоматическое кэширование ( документация ): Нет
Структура функции :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
я бы	Текст		нить
изображение	Изображение	(Нет, Нет, 3)	uint8
чистый	Тензор		логический
этикетка	Метка класса		int64

Контролируемые ключи (см . документ as_supervised ): ('image', 'label')
Цитата :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

control_noisy_web_labels/mini_imagenet_red (конфигурация по умолчанию)

Размер набора данных : 1.19 GiB
Сплиты :

Расколоть	Примеры
`'train_00'`	50 000
`'train_05'`	50 000
`'train_10'`	50 000
`'train_15'`	50 000
`'train_20'`	50 000
`'train_30'`	49 985
`'train_40'`	50 010
`'train_50'`	49 962
`'train_60'`	50 000
`'train_80'`	50 008
`'validation'`	5000

Рисунок ( tfds.show_examples ):

Визуализация

Примеры ( tfds.as_dataframe ):

control_noisy_web_labels/mini_imagenet_blue

Размер набора данных : 1.39 GiB
Сплиты :

Расколоть	Примеры
`'train_00'`	60 000
`'train_05'`	60 000
`'train_10'`	60 000
`'train_15'`	60 000
`'train_20'`	60 000
`'train_30'`	60 000
`'train_40'`	60 000
`'train_50'`	60 000
`'train_60'`	60 000
`'train_80'`	60 000
`'validation'`	5000

Рисунок ( tfds.show_examples ):

Визуализация

Примеры ( tfds.as_dataframe ):

контролируемые_шумные_web_labels Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

control_noisy_web_labels/mini_imagenet_red (конфигурация по умолчанию)

control_noisy_web_labels/mini_imagenet_blue

контролируемые_шумные_web_labels