Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

laion400m,laion400m

Descrição :

O conjunto de dados LAION-400M é completamente aberto e de acesso livre.

Verifique https://laion.ai/laion-400-open-dataset/ para obter a descrição completa deste conjunto de dados.

Todas as imagens e textos no conjunto de dados LAION-400M foram filtrados com o CLIP da OpenAI, calculando a similaridade de cosseno entre o texto e a imagem incorporada e eliminando aqueles com similaridade abaixo de 0,3. O limite de 0,3 foi determinado por meio de avaliações humanas e parecia ser uma boa heurística para estimar a correspondência semântica imagem-texto-conteúdo.

Os pares de texto-imagem foram extraídos do despejo de dados da Web Common Crawl e são de páginas da Web aleatórias rastreadas entre 2014 e 2021.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://laion.ai/blog/laion-400-open-dataset/
Código-fonte : tfds.vision_language.laion400m.Laion400m
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Consulte a seção "Informações de download" em https://laion.ai/blog/laion-400-open-dataset/
Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :

Dividir	Exemplos

Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuração padrão)

Estrutura de recursos :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})

Documentação do recurso :

Recurso	Aula	Forma	Tipo D	Descrição	Faixa de valor
	RecursosDict
rubrica	Texto		corda	Atributo de texto alternativo HTML
imagem	Imagem	(Nenhuma, Nenhuma, 3)	uint8	imagem
licença	Texto		corda	tipo de licença Creative Commons (se aplicável)
nsfw	ClassLabel		int64	Marca NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original	Escalar		int32	altura original da imagem
largura_original	Escalar		int32	largura original da imagem
semelhança	Escalar		float64	pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0	[0,0, 1,0]
url	Texto		corda	imagem URL

laion400m/incorporações

Estrutura de recursos :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})

Documentação do recurso :

Recurso	Aula	Forma	Tipo D	Descrição	Faixa de valor
	RecursosDict
rubrica	Texto		corda	Atributo de texto alternativo HTML
image_embedding	tensor	(512,)	float16	Incorporação de imagem CLIP
licença	Texto		corda	tipo de licença Creative Commons (se aplicável)
nsfw	ClassLabel		int64	Marca NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original	Escalar		int32	altura original da imagem
largura_original	Escalar		int32	largura original da imagem
semelhança	Escalar		float64	pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0	[0,0, 1,0]
text_embedding	tensor	(512,)	float16	Incorporação de texto CLIP
url	Texto		corda	imagem URL

laion400m,laion400m Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

laion400m/images (configuração padrão)

laion400m/incorporações

laion400m,laion400m