- Deskripsi :
Dataset LAION-400M benar-benar terbuka, dapat diakses secara bebas.
Periksa https://laion.ai/laion-400-open-dataset/ untuk deskripsi lengkap dari kumpulan data ini.
Semua gambar dan teks dalam kumpulan data LAION-400M telah difilter dengan CLIP OpenAI dengan menghitung kesamaan kosinus antara penyematan teks dan gambar dan membuang yang memiliki kesamaan di bawah 0,3. Ambang batas 0,3 telah ditentukan melalui evaluasi manusia dan tampaknya menjadi heuristik yang baik untuk memperkirakan pencocokan gambar-teks-konten semantik.
Pasangan gambar-teks telah diekstraksi dari dump data web Perayapan Umum dan berasal dari halaman web acak yang dirayapi antara tahun 2014 dan 2021.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.vision_language.laion400m.Laion400m
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Ukuran set data :
Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Lihat bagian "Unduh Informasi" di https://laion.ai/blog/laion-400-open-dataset/Di-cache otomatis ( dokumentasi ): Tidak diketahui
Perpecahan :
Membelah | Contoh |
---|
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
Kutipan :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/gambar (konfigurasi default)
- Struktur fitur :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan | Kisaran nilai |
---|---|---|---|---|---|
fiturDict | |||||
keterangan | Teks | rangkaian | Atribut teks alternatif HTML | ||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | gambar | |
lisensi | Teks | rangkaian | jenis lisensi Creative Commons (jika ada) | ||
nsfw | LabelKelas | int64 | Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED | ||
tinggi_asli | Skalar | int32 | tinggi asli gambar | ||
lebar_asli | Skalar | int32 | lebar asli gambar | ||
kesamaan | Skalar | float64 | skor kemiripan cosinus antara penyisipan teks dan gambar. Nilai yang hilang default ke -1.0 | [0.0, 1.0] | |
url | Teks | rangkaian | URL gambar |
laion400m/embeddings
- Struktur fitur :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan | Kisaran nilai |
---|---|---|---|---|---|
fiturDict | |||||
keterangan | Teks | rangkaian | Atribut teks alternatif HTML | ||
image_embedding | Tensor | (512,) | float16 | Penyematan gambar CLIP | |
lisensi | Teks | rangkaian | jenis lisensi Creative Commons (jika ada) | ||
nsfw | LabelKelas | int64 | Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED | ||
tinggi_asli | Skalar | int32 | tinggi asli gambar | ||
lebar_asli | Skalar | int32 | lebar asli gambar | ||
kesamaan | Skalar | float64 | skor kemiripan cosinus antara penyisipan teks dan gambar. Nilai yang hilang default ke -1.0 | [0.0, 1.0] | |
text_embedding | Tensor | (512,) | float16 | Penyematan teks CLIP | |
url | Teks | rangkaian | URL gambar |