- Keterangan :
Kumpulan data LAION-400M sepenuhnya terbuka dan dapat diakses secara bebas.
Periksa https://laion.ai/laion-400-open-dataset/ untuk deskripsi lengkap kumpulan data ini.
Semua gambar dan teks dalam kumpulan data LAION-400M telah difilter dengan CLIP OpenAI dengan menghitung kesamaan kosinus antara teks dan gambar yang disematkan dan membuang gambar dan teks yang memiliki kesamaan di bawah 0,3. Ambang batas 0,3 telah ditentukan melalui evaluasi manusia dan tampaknya merupakan heuristik yang baik untuk memperkirakan pencocokan konten gambar-teks-semantik.
Pasangan gambar-teks telah diekstraksi dari dump data web Common Crawl dan berasal dari halaman web acak yang dirayapi antara tahun 2014 dan 2021.
Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Kode sumber :
tfds.vision_language.laion400m.Laion400m
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Ukuran kumpulan data :
Unknown size
Petunjuk pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default pada~/tensorflow_datasets/downloads/manual/
):
Lihat bagian "Unduh Informasi" di https://laion.ai/blog/laion-400-open-dataset/Cache otomatis ( dokumentasi ): Tidak diketahui
Perpecahan :
Membelah | Contoh |
---|
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
Kutipan :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/gambar (konfigurasi default)
- Struktur fitur :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan | Kisaran nilai |
---|---|---|---|---|---|
FiturDict | |||||
keterangan | Teks | rangkaian | Atribut teks alternatif HTML | ||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | gambar | |
lisensi | Teks | rangkaian | jenis lisensi Creative Commons (jika ada) | ||
nsfw | Label Kelas | int64 | Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED | ||
tinggi_asli | Skalar | int32 | tinggi asli gambar | ||
lebar_asli | Skalar | int32 | lebar asli gambar | ||
kesamaan | Skalar | float64 | skor kesamaan kosinus antara teks dan gambar yang disematkan. Nilai yang hilang secara default adalah -1.0 | [0,0, 1,0] | |
url | Teks | rangkaian | URL gambar |
laion400m/embedding
- Struktur fitur :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan | Kisaran nilai |
---|---|---|---|---|---|
FiturDict | |||||
keterangan | Teks | rangkaian | Atribut teks alternatif HTML | ||
gambar_penyematan | Tensor | (512,) | mengapung16 | Penyematan gambar CLIP | |
lisensi | Teks | rangkaian | jenis lisensi Creative Commons (jika ada) | ||
nsfw | Label Kelas | int64 | Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED | ||
tinggi_asli | Skalar | int32 | tinggi asli gambar | ||
lebar_asli | Skalar | int32 | lebar asli gambar | ||
kesamaan | Skalar | float64 | skor kesamaan kosinus antara teks dan gambar yang disematkan. Nilai yang hilang secara default adalah -1.0 | [0,0, 1,0] | |
teks_penyematan | Tensor | (512,) | mengapung16 | Penyematan teks CLIP | |
url | Teks | rangkaian | URL gambar |