laion400m

  • Keterangan :

Kumpulan data LAION-400M sepenuhnya terbuka dan dapat diakses secara bebas.

Periksa https://laion.ai/laion-400-open-dataset/ untuk deskripsi lengkap kumpulan data ini.

Semua gambar dan teks dalam kumpulan data LAION-400M telah difilter dengan CLIP OpenAI dengan menghitung kesamaan kosinus antara teks dan gambar yang disematkan dan membuang gambar dan teks yang memiliki kesamaan di bawah 0,3. Ambang batas 0,3 telah ditentukan melalui evaluasi manusia dan tampaknya merupakan heuristik yang baik untuk memperkirakan pencocokan konten gambar-teks-semantik.

Pasangan gambar-teks telah diekstraksi dari dump data web Common Crawl dan berasal dari halaman web acak yang dirayapi antara tahun 2014 dan 2021.

Membelah Contoh
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/gambar (konfigurasi default)

  • Struktur fitur :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan Kisaran nilai
FiturDict
keterangan Teks rangkaian Atribut teks alternatif HTML
gambar Gambar (Tidak ada, Tidak ada, 3) uint8 gambar
lisensi Teks rangkaian jenis lisensi Creative Commons (jika ada)
nsfw Label Kelas int64 Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED
tinggi_asli Skalar int32 tinggi asli gambar
lebar_asli Skalar int32 lebar asli gambar
kesamaan Skalar float64 skor kesamaan kosinus antara teks dan gambar yang disematkan. Nilai yang hilang secara default adalah -1.0 [0,0, 1,0]
url Teks rangkaian URL gambar

laion400m/embedding

  • Struktur fitur :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan Kisaran nilai
FiturDict
keterangan Teks rangkaian Atribut teks alternatif HTML
gambar_penyematan Tensor (512,) mengapung16 Penyematan gambar CLIP
lisensi Teks rangkaian jenis lisensi Creative Commons (jika ada)
nsfw Label Kelas int64 Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED
tinggi_asli Skalar int32 tinggi asli gambar
lebar_asli Skalar int32 lebar asli gambar
kesamaan Skalar float64 skor kesamaan kosinus antara teks dan gambar yang disematkan. Nilai yang hilang secara default adalah -1.0 [0,0, 1,0]
teks_penyematan Tensor (512,) mengapung16 Penyematan teks CLIP
url Teks rangkaian URL gambar