- Descrição :
O conjunto de dados LAION-400M é completamente aberto e de acesso livre.
Verifique https://laion.ai/laion-400-open-dataset/ para obter a descrição completa deste conjunto de dados.
Todas as imagens e textos no conjunto de dados LAION-400M foram filtrados com o CLIP da OpenAI, calculando a similaridade de cosseno entre o texto e a imagem incorporada e eliminando aqueles com similaridade abaixo de 0,3. O limite de 0,3 foi determinado por meio de avaliações humanas e parecia ser uma boa heurística para estimar a correspondência semântica imagem-texto-conteúdo.
Os pares de texto-imagem foram extraídos do despejo de dados da Web Common Crawl e são de páginas da Web aleatórias rastreadas entre 2014 e 2021.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://laion.ai/blog/laion-400-open-dataset/
Código-fonte :
tfds.vision_language.laion400m.Laion400m
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Consulte a seção "Informações de download" em https://laion.ai/blog/laion-400-open-dataset/Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (configuração padrão)
- Estrutura de recursos :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição | Faixa de valor |
---|---|---|---|---|---|
RecursosDict | |||||
rubrica | Texto | corda | Atributo de texto alternativo HTML | ||
imagem | Imagem | (Nenhuma, Nenhuma, 3) | uint8 | imagem | |
licença | Texto | corda | tipo de licença Creative Commons (se aplicável) | ||
nsfw | ClassLabel | int64 | Marca NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED | ||
altura_original | Escalar | int32 | altura original da imagem | ||
largura_original | Escalar | int32 | largura original da imagem | ||
semelhança | Escalar | float64 | pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 | [0,0, 1,0] | |
url | Texto | corda | imagem URL |
laion400m/incorporações
- Estrutura de recursos :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição | Faixa de valor |
---|---|---|---|---|---|
RecursosDict | |||||
rubrica | Texto | corda | Atributo de texto alternativo HTML | ||
image_embedding | tensor | (512,) | float16 | Incorporação de imagem CLIP | |
licença | Texto | corda | tipo de licença Creative Commons (se aplicável) | ||
nsfw | ClassLabel | int64 | Marca NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED | ||
altura_original | Escalar | int32 | altura original da imagem | ||
largura_original | Escalar | int32 | largura original da imagem | ||
semelhança | Escalar | float64 | pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 | [0,0, 1,0] | |
text_embedding | tensor | (512,) | float16 | Incorporação de texto CLIP | |
url | Texto | corda | imagem URL |