- คำอธิบาย :
ชุดข้อมูล LAION-400M เป็นแบบเปิดเผยและเข้าถึงได้อย่างอิสระ
ตรวจสอบ https://laion.ai/laion-400-open-dataset/ สำหรับคำอธิบายแบบเต็มของชุดข้อมูลนี้
รูปภาพและข้อความทั้งหมดในชุดข้อมูล LAION-400M ได้รับการกรองด้วย CLIP ของ OpenAI โดยคำนวณความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ และปล่อยสิ่งเหล่านั้นที่มีความคล้ายคลึงกันต่ำกว่า 0.3 เกณฑ์ที่ 0.3 ถูกกำหนดโดยการประเมินโดยมนุษย์ และดูเหมือนจะเป็นฮิวริสติกที่ดีสำหรับการประเมินการจับคู่เนื้อหาภาพ-ข้อความ-ความหมาย
ภาพ-ข้อความ-คู่ได้รับการดึงมาจากการถ่ายโอนข้อมูลเว็บ Common Crawl และมาจากหน้าเว็บแบบสุ่มที่รวบรวมข้อมูลระหว่างปี 2014 ถึง 2021
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.vision_language.laion400m.Laion400m
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
อ้างอิงถึงส่วน "ดาวน์โหลดข้อมูล" ใน https://laion.ai/blog/laion-400-open-dataset/แคชอัตโนมัติ ( เอกสาร ): ไม่รู้จัก
แยก :
แยก | ตัวอย่าง |
---|
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ): ไม่มี
การอ้างอิง :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/ภาพ (การกำหนดค่าเริ่มต้น)
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย | ช่วงค่า |
---|---|---|---|---|---|
คุณสมบัติDict | |||||
คำอธิบายภาพ | ข้อความ | สตริง | แอตทริบิวต์ข้อความแสดงแทน HTML | ||
ภาพ | ภาพ | (ไม่มี, ไม่มี, 3) | uint8 | ภาพ | |
ใบอนุญาต | ข้อความ | สตริง | ประเภทสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี) | ||
nsfw | ป้ายกำกับคลาส | int64 | แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ติดกันและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED | ||
original_height | สเกลาร์ | int32 | ความสูงเดิมของภาพ | ||
ต้นฉบับ_ความกว้าง | สเกลาร์ | int32 | ความกว้างเดิมของภาพ | ||
ความคล้ายคลึงกัน | สเกลาร์ | float64 | คะแนนความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าเริ่มต้นที่ขาดหายไปคือ -1.0 | [0.0, 1.0] | |
URL | ข้อความ | สตริง | URL รูปภาพ |
laion400m/ฝัง
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย | ช่วงค่า |
---|---|---|---|---|---|
คุณสมบัติDict | |||||
คำอธิบายภาพ | ข้อความ | สตริง | แอตทริบิวต์ข้อความแสดงแทน HTML | ||
image_embedding | เทนเซอร์ | (512,) | ลอย16 | การฝังภาพ CLIP | |
ใบอนุญาต | ข้อความ | สตริง | ประเภทสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี) | ||
nsfw | ป้ายกำกับคลาส | int64 | แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ติดกันและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED | ||
original_height | สเกลาร์ | int32 | ความสูงเดิมของภาพ | ||
ต้นฉบับ_ความกว้าง | สเกลาร์ | int32 | ความกว้างเดิมของภาพ | ||
ความคล้ายคลึงกัน | สเกลาร์ | float64 | คะแนนความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าเริ่มต้นที่ขาดหายไปคือ -1.0 | [0.0, 1.0] | |
text_embedding | เทนเซอร์ | (512,) | ลอย16 | การฝังข้อความ CLIP | |
URL | ข้อความ | สตริง | URL รูปภาพ |