laion400m,laion400m

  • Deskripsi :

Dataset LAION-400M benar-benar terbuka, dapat diakses secara bebas.

Periksa https://laion.ai/laion-400-open-dataset/ untuk deskripsi lengkap dari kumpulan data ini.

Semua gambar dan teks dalam kumpulan data LAION-400M telah difilter dengan CLIP OpenAI dengan menghitung kesamaan kosinus antara penyematan teks dan gambar dan membuang yang memiliki kesamaan di bawah 0,3. Ambang batas 0,3 telah ditentukan melalui evaluasi manusia dan tampaknya menjadi heuristik yang baik untuk memperkirakan pencocokan gambar-teks-konten semantik.

Pasangan gambar-teks telah diekstraksi dari dump data web Perayapan Umum dan berasal dari halaman web acak yang dirayapi antara tahun 2014 dan 2021.

Membelah Contoh
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/gambar (konfigurasi default)

  • Struktur fitur :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan Kisaran nilai
fiturDict
keterangan Teks rangkaian Atribut teks alternatif HTML
gambar Gambar (Tidak ada, Tidak ada, 3) uint8 gambar
lisensi Teks rangkaian jenis lisensi Creative Commons (jika ada)
nsfw LabelKelas int64 Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED
tinggi_asli Skalar int32 tinggi asli gambar
lebar_asli Skalar int32 lebar asli gambar
kesamaan Skalar float64 skor kemiripan cosinus antara penyisipan teks dan gambar. Nilai yang hilang default ke -1.0 [0.0, 1.0]
url Teks rangkaian URL gambar

laion400m/embeddings

  • Struktur fitur :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan Kisaran nilai
fiturDict
keterangan Teks rangkaian Atribut teks alternatif HTML
image_embedding Tensor (512,) float16 Penyematan gambar CLIP
lisensi Teks rangkaian jenis lisensi Creative Commons (jika ada)
nsfw LabelKelas int64 Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED
tinggi_asli Skalar int32 tinggi asli gambar
lebar_asli Skalar int32 lebar asli gambar
kesamaan Skalar float64 skor kemiripan cosinus antara penyisipan teks dan gambar. Nilai yang hilang default ke -1.0 [0.0, 1.0]
text_embedding Tensor (512,) float16 Penyematan teks CLIP
url Teks rangkaian URL gambar