laion400m,laion400m

  • Descrição :

O conjunto de dados LAION-400M é completamente aberto e de acesso livre.

Verifique https://laion.ai/laion-400-open-dataset/ para obter a descrição completa deste conjunto de dados.

Todas as imagens e textos no conjunto de dados LAION-400M foram filtrados com o CLIP da OpenAI, calculando a similaridade de cosseno entre o texto e a imagem incorporada e eliminando aqueles com similaridade abaixo de 0,3. O limite de 0,3 foi determinado por meio de avaliações humanas e parecia ser uma boa heurística para estimar a correspondência semântica imagem-texto-conteúdo.

Os pares de texto-imagem foram extraídos do despejo de dados da Web Common Crawl e são de páginas da Web aleatórias rastreadas entre 2014 e 2021.

Dividir Exemplos
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuração padrão)

  • Estrutura de recursos :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição Faixa de valor
RecursosDict
rubrica Texto corda Atributo de texto alternativo HTML
imagem Imagem (Nenhuma, Nenhuma, 3) uint8 imagem
licença Texto corda tipo de licença Creative Commons (se aplicável)
nsfw ClassLabel int64 Marca NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original Escalar int32 altura original da imagem
largura_original Escalar int32 largura original da imagem
semelhança Escalar float64 pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 [0,0, 1,0]
url Texto corda imagem URL

laion400m/incorporações

  • Estrutura de recursos :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição Faixa de valor
RecursosDict
rubrica Texto corda Atributo de texto alternativo HTML
image_embedding tensor (512,) float16 Incorporação de imagem CLIP
licença Texto corda tipo de licença Creative Commons (se aplicável)
nsfw ClassLabel int64 Marca NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original Escalar int32 altura original da imagem
largura_original Escalar int32 largura original da imagem
semelhança Escalar float64 pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 [0,0, 1,0]
text_embedding tensor (512,) float16 Incorporação de texto CLIP
url Texto corda imagem URL