ライオン400m

  • 説明

LAION-400M データセットは完全にオープンで自由にアクセスできます。

このデータセットの完全な説明については、 https://laion.ai/laion-400-open-dataset/を確認してください。

LAION-400M データセット内のすべての画像とテキストは、テキストと画像の埋め込み間のコサイン類似度を計算し、類似度が 0.3 未満のものを削除することにより、OpenAI の CLIP でフィルタリングされています。 0.3 というしきい値は人間による評価によって決定されており、意味論的な画像、テキスト、コンテンツの一致を推定するための優れたヒューリスティックであると思われます。

画像とテキストのペアは Common Crawl Web データ ダンプから抽出されたもので、2014 年から 2021 年の間にクロールされたランダムな Web ページからのものです。

スプリット
@article{DBLP:journals/corr/abs-2111-02114,
  author    
= {Christoph Schuhmann and
               
Richard Vencu and
               
Romain Beaumont and
               
Robert Kaczmarczyk and
               
Clayton Mullis and
               
Aarush Katta and
               
Theo Coombes and
               
Jenia Jitsev and
               
Aran Komatsuzaki},
  title    
= { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               
Pairs},
  journal  
= {CoRR},
  volume    
= {abs/2111.02114},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2111.02114},
  eprinttype
= {arXiv},
  eprint    
= {2111.02114},
  timestamp
= {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (デフォルト設定)

  • 機能の構造:
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'url': Text(shape=(), dtype=string),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明値の範囲
特徴辞書
キャプション文章HTML の代替テキスト属性
画像画像(なし、なし、3) uint8画像
ライセンス文章クリエイティブ コモンズ ライセンスの種類 (該当する場合)
NSFWクラスラベルint64 NSFW タグ (CLIP で検出)。まとまりのないタグや欠落しているタグは UNTAGGED に置き換えられます
元の高さスカラーint32画像の元の高さ
元の幅スカラーint32画像の元の幅
類似性スカラーfloat64テキストと画像の埋め込み間のコサイン類似性スコア。欠損値のデフォルトは -1.0 [0.0、1.0]
URL文章画像のURL

laion400m/埋め込み

  • 機能の構造:
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
   
'url': Text(shape=(), dtype=string),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明値の範囲
特徴辞書
キャプション文章HTML の代替テキスト属性
画像の埋め込みテンソル(512,) float16 CLIP画像の埋め込み
ライセンス文章クリエイティブ コモンズ ライセンスの種類 (該当する場合)
NSFWクラスラベルint64 NSFW タグ (CLIP で検出)。まとまりのないタグや欠落しているタグは UNTAGGED に置き換えられます
元の高さスカラーint32画像の元の高さ
元の幅スカラーint32画像の元の幅
類似性スカラーfloat64テキストと画像の埋め込み間のコサイン類似性スコア。欠損値のデフォルトは -1.0 [0.0、1.0]
テキスト埋め込みテンソル(512,) float16 CLIPテキストの埋め込み
URL文章画像のURL