Лайон400м

  • Описание :

Набор данных LAION-400M находится в полностью открытом и свободном доступе.

Проверьте https://laion.ai/laion-400-open-dataset/ для полного описания этого набора данных.

Все изображения и тексты в наборе данных LAION-400M были отфильтрованы с помощью CLIP OpenAI путем расчета косинусного сходства между внедренными текстом и изображением и удаления тех, у которых сходство ниже 0,3. Порог 0,3 был определен посредством человеческих оценок и оказался хорошей эвристикой для оценки семантического соответствия изображения-текста.

Пары изображение-текст были извлечены из дампа веб-данных Common Crawl и взяты из случайных веб-страниц, просканированных в период с 2014 по 2021 год.

Расколоть Примеры
@article{DBLP:journals/corr/abs-2111-02114,
  author    
= {Christoph Schuhmann and
               
Richard Vencu and
               
Romain Beaumont and
               
Robert Kaczmarczyk and
               
Clayton Mullis and
               
Aarush Katta and
               
Theo Coombes and
               
Jenia Jitsev and
               
Aran Komatsuzaki},
  title    
= { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               
Pairs},
  journal  
= {CoRR},
  volume    
= {abs/2111.02114},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2111.02114},
  eprinttype
= {arXiv},
  eprint    
= {2111.02114},
  timestamp
= {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (конфигурация по умолчанию)

  • Структура функции :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'url': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание Диапазон значений
ВозможностиDict
подпись Текст нить HTML-атрибут альтернативного текста
изображение Изображение (Нет, Нет, 3) uint8 изображение
лицензия Текст нить тип лицензии Creative Commons (если применимо)
нсфв Класслейбл int64 Тег NSFW (обнаруживается с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED.
original_height Скаляр int32 исходная высота изображения
исходная_ширина Скаляр int32 исходная ширина изображения
сходство Скаляр float64 Косинусная оценка сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0. [0,0, 1,0]
URL Текст нить URL изображения

Лайон400м/встраивания

  • Структура функции :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
   
'url': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание Диапазон значений
ВозможностиDict
подпись Текст нить HTML-атрибут альтернативного текста
image_embedding Тензор (512,) поплавок16 Встраивание изображений CLIP
лицензия Текст нить тип лицензии Creative Commons (если применимо)
нсфв Класслейбл int64 Тег NSFW (обнаруживается с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED.
original_height Скаляр int32 исходная высота изображения
исходная_ширина Скаляр int32 исходная ширина изображения
сходство Скаляр float64 Косинусная оценка сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0. [0,0, 1,0]
text_embedding Тензор (512,) поплавок16 Встраивание текста CLIP
URL Текст нить URL изображения