laion400m

  • विवरण :

LAION-400M डेटासेट पूरी तरह से खुले तौर पर, स्वतंत्र रूप से पहुंच योग्य है।

इस डेटासेट के पूर्ण विवरण के लिए https://laion.ai/laion-400-open-dataset/ देखें।

LAION-400M डेटासेट में सभी छवियों और टेक्स्ट को टेक्स्ट और छवि एम्बेडिंग के बीच कोसाइन समानता की गणना करके और 0.3 से नीचे समानता वाले लोगों को हटाकर OpenAI के CLIP के साथ फ़िल्टर किया गया है। 0.3 की सीमा मानव मूल्यांकन के माध्यम से निर्धारित की गई थी और अर्थपूर्ण छवि-पाठ-सामग्री मिलान का अनुमान लगाने के लिए एक अच्छा अनुमान प्रतीत होता है।

छवि-पाठ-जोड़े कॉमन क्रॉल वेब डेटा डंप से निकाले गए हैं और 2014 और 2021 के बीच क्रॉल किए गए यादृच्छिक वेब पेजों से हैं।

विभाजित करना उदाहरण
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ): गुम है।

  • उद्धरण :

@article{DBLP:journals/corr/abs-2111-02114,
  author    
= {Christoph Schuhmann and
               
Richard Vencu and
               
Romain Beaumont and
               
Robert Kaczmarczyk and
               
Clayton Mullis and
               
Aarush Katta and
               
Theo Coombes and
               
Jenia Jitsev and
               
Aran Komatsuzaki},
  title    
= { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               
Pairs},
  journal  
= {CoRR},
  volume    
= {abs/2111.02114},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2111.02114},
  eprinttype
= {arXiv},
  eprint    
= {2111.02114},
  timestamp
= {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • फ़ीचर संरचना :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण मूल्य पहुंच
फीचर्सडिक्ट
कैप्शन मूलपाठ डोरी HTML ऑल्ट-टेक्स्ट विशेषता
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8 छवि
लाइसेंस मूलपाठ डोरी क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो)
एनएसएफडब्ल्यू क्लास लेबल int64 NSFW टैग (CLIP के साथ पता लगाया गया)। असंबद्ध और लुप्त टैग को UNTAGGED से बदल दिया जाता है
मूल_ऊंचाई अदिश int32 छवि की मूल ऊंचाई
मूल_चौड़ाई अदिश int32 छवि की मूल चौड़ाई
समानता अदिश फ्लोट64 पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। गुम मान डिफ़ॉल्ट रूप से -1.0 हैं [0.0, 1.0]
यूआरएल मूलपाठ डोरी छवि यूआरएल

laion400m/एम्बेडिंग

  • फ़ीचर संरचना :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
   
'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण मूल्य पहुंच
फीचर्सडिक्ट
कैप्शन मूलपाठ डोरी HTML ऑल्ट-टेक्स्ट विशेषता
छवि_एम्बेडिंग टेन्सर (512,) फ्लोट16 क्लिप छवि एम्बेडिंग
लाइसेंस मूलपाठ डोरी क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो)
एनएसएफडब्ल्यू क्लास लेबल int64 NSFW टैग (CLIP के साथ पता लगाया गया)। असंबद्ध और लुप्त टैग को UNTAGGED से बदल दिया जाता है
मूल_ऊंचाई अदिश int32 छवि की मूल ऊंचाई
मूल_चौड़ाई अदिश int32 छवि की मूल चौड़ाई
समानता अदिश फ्लोट64 पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। गुम मान डिफ़ॉल्ट रूप से -1.0 हैं [0.0, 1.0]
text_embedding टेन्सर (512,) फ्लोट16 क्लिप टेक्स्ट एम्बेडिंग
यूआरएल मूलपाठ डोरी छवि यूआरएल