Лайон400м

Описание :

Набор данных LAION-400M находится в полностью открытом и свободном доступе.

Проверьте https://laion.ai/laion-400-open-dataset/ для полного описания этого набора данных.

Все изображения и тексты в наборе данных LAION-400M были отфильтрованы с помощью CLIP OpenAI путем расчета косинусного сходства между внедренными текстом и изображением и удаления тех, у которых сходство ниже 0,3. Порог 0,3 был определен посредством человеческих оценок и оказался хорошей эвристикой для оценки семантического соответствия изображения-текста.

Пары изображение-текст были извлечены из дампа веб-данных Common Crawl и взяты из случайных веб-страниц, просканированных в период с 2014 по 2021 год.

Дополнительная документация : Изучите статьи с кодом
Домашняя страница : https://laion.ai/blog/laion-400-open-dataset/
Исходный код : tfds.vision_language.laion400m.Laion400m
Версии :
- 1.0.0 (по умолчанию): первоначальный выпуск.
Размер загрузки : Unknown size
Размер набора данных : Unknown size
Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
См. раздел «Информация о загрузке» на странице https://laion.ai/blog/laion-400-open-dataset/.
Автокэширование ( документация ): неизвестно.
Расколы :

Расколоть	Примеры

Контролируемые ключи (см. документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ): Отсутствуют.
Цитата :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (конфигурация по умолчанию)

Структура функции :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип	Описание	Диапазон значений
	ВозможностиDict
подпись	Текст		нить	HTML-атрибут альтернативного текста
изображение	Изображение	(Нет, Нет, 3)	uint8	изображение
лицензия	Текст		нить	тип лицензии Creative Commons (если применимо)
нсфв	Класслейбл		int64	Тег NSFW (обнаруживается с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED.
original_height	Скаляр		int32	исходная высота изображения
исходная_ширина	Скаляр		int32	исходная ширина изображения
сходство	Скаляр		float64	Косинусная оценка сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0.	[0,0, 1,0]
URL	Текст		нить	URL изображения

Лайон400м/встраивания

Структура функции :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип	Описание	Диапазон значений
	ВозможностиDict
подпись	Текст		нить	HTML-атрибут альтернативного текста
image_embedding	Тензор	(512,)	поплавок16	Встраивание изображений CLIP
лицензия	Текст		нить	тип лицензии Creative Commons (если применимо)
нсфв	Класслейбл		int64	Тег NSFW (обнаруживается с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED.
original_height	Скаляр		int32	исходная высота изображения
исходная_ширина	Скаляр		int32	исходная ширина изображения
сходство	Скаляр		float64	Косинусная оценка сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0.	[0,0, 1,0]
text_embedding	Тензор	(512,)	поплавок16	Встраивание текста CLIP
URL	Текст		нить	URL изображения

Лайон400м Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

laion400m/images (конфигурация по умолчанию)

Лайон400м/встраивания

Лайон400м