- Descrição :
O conjunto de dados LAION-400M é totalmente aberto e de acesso gratuito.
Verifique https://laion.ai/laion-400-open-dataset/ para a descrição completa deste conjunto de dados.
Todas as imagens e textos no conjunto de dados LAION-400M foram filtrados com o CLIP da OpenAI calculando a similaridade de cosseno entre os embeddings de texto e imagem e descartando aqueles com similaridade abaixo de 0,3. O limite de 0,3 foi determinado através de avaliações humanas e pareceu ser uma boa heurística para estimar a correspondência semântica entre imagem-texto-conteúdo.
Os pares imagem-texto foram extraídos do despejo de dados da web do Common Crawl e são de páginas da web aleatórias rastreadas entre 2014 e 2021.
Documentação adicional : Explore artigos com código
Página inicial : https://laion.ai/blog/laion-400-open-dataset/
Código fonte :
tfds.vision_language.laion400m.Laion400m
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados requer que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Consulte a seção "Informações sobre download" em https://laion.ai/blog/laion-400-open-dataset/Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (configuração padrão)
- Estrutura de recursos :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição | Faixa de valores |
---|---|---|---|---|---|
RecursosDict | |||||
rubrica | Texto | corda | Atributo de texto alternativo HTML | ||
imagem | Imagem | (Nenhum, Nenhum, 3) | uint8 | imagem | |
licença | Texto | corda | tipo de licença Creative Commons (se aplicável) | ||
nsfw | ClassLabel | int64 | Etiqueta NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED | ||
altura_original | Escalar | int32 | altura original da imagem | ||
largura_original | Escalar | int32 | largura original da imagem | ||
semelhança | Escalar | float64 | pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 | [0,0, 1,0] | |
url | Texto | corda | URL da imagem |
laion400m/embutimentos
- Estrutura de recursos :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição | Faixa de valores |
---|---|---|---|---|---|
RecursosDict | |||||
rubrica | Texto | corda | Atributo de texto alternativo HTML | ||
incorporação de imagem | Tensor | (512,) | float16 | Incorporação de imagem CLIP | |
licença | Texto | corda | tipo de licença Creative Commons (se aplicável) | ||
nsfw | ClassLabel | int64 | Etiqueta NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED | ||
altura_original | Escalar | int32 | altura original da imagem | ||
largura_original | Escalar | int32 | largura original da imagem | ||
semelhança | Escalar | float64 | pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 | [0,0, 1,0] | |
incorporação de texto | Tensor | (512,) | float16 | Incorporação de texto CLIP | |
url | Texto | corda | URL da imagem |