ไลออน400ม

  • คำอธิบาย :

ชุดข้อมูล LAION-400M เป็นแบบเปิดเผยและเข้าถึงได้อย่างอิสระโดยสมบูรณ์

ตรวจสอบ https://laion.ai/laion-400-open-dataset/ สำหรับคำอธิบายแบบเต็มของชุดข้อมูลนี้

รูปภาพและข้อความทั้งหมดในชุดข้อมูล LAION-400M ได้รับการกรองด้วย CLIP ของ OpenAI โดยการคำนวณความคล้ายคลึงโคไซน์ระหว่างข้อความและรูปภาพที่ฝัง และลดสิ่งที่มีความคล้ายคลึงกันต่ำกว่า 0.3 เกณฑ์ขั้นต่ำที่ 0.3 ถูกกำหนดโดยการประเมินโดยมนุษย์ และดูเหมือนว่าจะเป็นฮิวริสติกที่ดีในการประมาณการจับคู่เนื้อหารูปภาพ-ข้อความ-ความหมาย

คู่รูปภาพ-ข้อความได้รับการแยกออกจากดัมพ์ข้อมูลเว็บ Common Crawl และมาจากหน้าเว็บแบบสุ่มที่รวบรวมข้อมูลระหว่างปี 2014 ถึง 2021

  • เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส

  • หน้าแรก : https://laion.ai/blog/laion-400-open-dataset/

  • ซอร์สโค้ด : tfds.vision_language.laion400m.Laion400m

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้ต้องการให้คุณดาวน์โหลดข้อมูลต้นฉบับด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    อ้างถึงส่วน "ดาวน์โหลดข้อมูล" ใน https://laion.ai/blog/laion-400-open-dataset/

  • แคชอัตโนมัติ ( เอกสาร ): ไม่ทราบ

  • แยก :

แยก ตัวอย่าง
@article{DBLP:journals/corr/abs-2111-02114,
  author    
= {Christoph Schuhmann and
               
Richard Vencu and
               
Romain Beaumont and
               
Robert Kaczmarczyk and
               
Clayton Mullis and
               
Aarush Katta and
               
Theo Coombes and
               
Jenia Jitsev and
               
Aran Komatsuzaki},
  title    
= { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               
Pairs},
  journal  
= {CoRR},
  volume    
= {abs/2111.02114},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2111.02114},
  eprinttype
= {arXiv},
  eprint    
= {2111.02114},
  timestamp
= {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

laion400m/ภาพ (การกำหนดค่าเริ่มต้น)

  • โครงสร้างคุณสมบัติ :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย ช่วงค่า
คุณสมบัติDict
คำบรรยายภาพ ข้อความ เชือก แอตทริบิวต์ข้อความแสดงแทน HTML
ภาพ ภาพ (ไม่มี ไม่มี 3) uint8 ภาพ
ใบอนุญาต ข้อความ เชือก ประเภทของสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
ไม่ ClassLabel int64 แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ต่อเนื่องและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
ต้นฉบับ_ความสูง สเกลาร์ int32 ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง สเกลาร์ int32 ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน สเกลาร์ ลอย64 คะแนนความคล้ายคลึงโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าที่หายไปจะมีค่าเริ่มต้นเป็น -1.0 [0.0, 1.0]
URL ข้อความ เชือก URL รูปภาพ

laion400m/การฝัง

  • โครงสร้างคุณสมบัติ :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
   
'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย ช่วงค่า
คุณสมบัติDict
คำบรรยายภาพ ข้อความ เชือก แอตทริบิวต์ข้อความแสดงแทน HTML
image_embedding เทนเซอร์ (512,) ลอย16 CLIP การฝังภาพ
ใบอนุญาต ข้อความ เชือก ประเภทของสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
ไม่ ClassLabel int64 แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ต่อเนื่องและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
ต้นฉบับ_ความสูง สเกลาร์ int32 ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง สเกลาร์ int32 ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน สเกลาร์ ลอย64 คะแนนความคล้ายคลึงโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าที่หายไปจะมีค่าเริ่มต้นเป็น -1.0 [0.0, 1.0]
text_embedding เทนเซอร์ (512,) ลอย16 การฝังข้อความ CLIP
URL ข้อความ เชือก URL รูปภาพ