laion400m

Keterangan :

Kumpulan data LAION-400M sepenuhnya terbuka dan dapat diakses secara bebas.

Periksa https://laion.ai/laion-400-open-dataset/ untuk deskripsi lengkap kumpulan data ini.

Semua gambar dan teks dalam kumpulan data LAION-400M telah difilter dengan CLIP OpenAI dengan menghitung kesamaan kosinus antara teks dan gambar yang disematkan dan membuang gambar dan teks yang memiliki kesamaan di bawah 0,3. Ambang batas 0,3 telah ditentukan melalui evaluasi manusia dan tampaknya merupakan heuristik yang baik untuk memperkirakan pencocokan konten gambar-teks-semantik.

Pasangan gambar-teks telah diekstraksi dari dump data web Common Crawl dan berasal dari halaman web acak yang dirayapi antara tahun 2014 dan 2021.

Dokumentasi Tambahan : Jelajahi Makalah Dengan Kode
Beranda : https://laion.ai/blog/laion-400-open-dataset/
Kode sumber : tfds.vision_language.laion400m.Laion400m
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : Unknown size
Ukuran kumpulan data : Unknown size
Petunjuk pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default pada ~/tensorflow_datasets/downloads/manual/ ):
Lihat bagian "Unduh Informasi" di https://laion.ai/blog/laion-400-open-dataset/
Cache otomatis ( dokumentasi ): Tidak diketahui
Perpecahan :

Membelah	Contoh

Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
Kutipan :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/gambar (konfigurasi default)

Struktur fitur :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D	Keterangan	Kisaran nilai
	FiturDict
keterangan	Teks		rangkaian	Atribut teks alternatif HTML
gambar	Gambar	(Tidak ada, Tidak ada, 3)	uint8	gambar
lisensi	Teks		rangkaian	jenis lisensi Creative Commons (jika ada)
nsfw	Label Kelas		int64	Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED
tinggi_asli	Skalar		int32	tinggi asli gambar
lebar_asli	Skalar		int32	lebar asli gambar
kesamaan	Skalar		float64	skor kesamaan kosinus antara teks dan gambar yang disematkan. Nilai yang hilang secara default adalah -1.0	[0,0, 1,0]
url	Teks		rangkaian	URL gambar

laion400m/embedding

Struktur fitur :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D	Keterangan	Kisaran nilai
	FiturDict
keterangan	Teks		rangkaian	Atribut teks alternatif HTML
gambar_penyematan	Tensor	(512,)	mengapung16	Penyematan gambar CLIP
lisensi	Teks		rangkaian	jenis lisensi Creative Commons (jika ada)
nsfw	Label Kelas		int64	Tag NSFW (terdeteksi dengan CLIP). Tag yang tidak kohesif dan hilang diganti dengan UNTAGGED
tinggi_asli	Skalar		int32	tinggi asli gambar
lebar_asli	Skalar		int32	lebar asli gambar
kesamaan	Skalar		float64	skor kesamaan kosinus antara teks dan gambar yang disematkan. Nilai yang hilang secara default adalah -1.0	[0,0, 1,0]
teks_penyematan	Tensor	(512,)	mengapung16	Penyematan teks CLIP
url	Teks		rangkaian	URL gambar