laion400m

  • وصف :

مجموعة بيانات LAION-400M مفتوحة تمامًا ويمكن الوصول إليها مجانًا.

راجع https://laion.ai/laion-400-open-dataset/ للحصول على الوصف الكامل لمجموعة البيانات هذه.

تمت تصفية جميع الصور والنصوص في مجموعة بيانات LAION-400M باستخدام OpenAI's CLIP عن طريق حساب تشابه جيب التمام بين النص وتضمينات الصور وإسقاط تلك التي لها تشابه أقل من 0.3. تم تحديد عتبة 0.3 من خلال التقييمات البشرية ويبدو أنها أداة إرشادية جيدة لتقدير المطابقة الدلالية لمحتوى الصورة والنص.

تم استخراج أزواج الصور والنص من تفريغ بيانات الويب Common Crawl وهي من صفحات الويب العشوائية التي تم الزحف إليها بين عامي 2014 و2021.

ينقسم أمثلة
@article{DBLP:journals/corr/abs-2111-02114,
  author    
= {Christoph Schuhmann and
               
Richard Vencu and
               
Romain Beaumont and
               
Robert Kaczmarczyk and
               
Clayton Mullis and
               
Aarush Katta and
               
Theo Coombes and
               
Jenia Jitsev and
               
Aran Komatsuzaki},
  title    
= { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               
Pairs},
  journal  
= {CoRR},
  volume    
= {abs/2111.02114},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2111.02114},
  eprinttype
= {arXiv},
  eprint    
= {2111.02114},
  timestamp
= {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (التكوين الافتراضي)

  • هيكل الميزة :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف نطاق القيمة
المميزاتDict
التسمية التوضيحية نص خيط سمة النص البديل HTML
صورة صورة (لا شيء، لا شيء، 3) uint8 صورة
رخصة نص خيط نوع ترخيص المشاع الإبداعي (إن وجد)
nsfw ClassLabel int64 علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height العددية int32 الارتفاع الأصلي للصورة
original_width العددية int32 العرض الأصلي للصورة
تشابه العددية float64 درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0 [0.0، 1.0]
عنوان URL نص خيط عنوان URL للصورة

laion400m/embeddings

  • هيكل الميزة :
FeaturesDict({
   
'caption': Text(shape=(), dtype=string),
   
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
   
'license': Text(shape=(), dtype=string),
   
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
   
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
   
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
   
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
   
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
   
'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف نطاق القيمة
المميزاتDict
التسمية التوضيحية نص خيط سمة النص البديل HTML
image_embedding الموتر (512،) تعويم16 تضمين الصور CLIP
رخصة نص خيط نوع ترخيص المشاع الإبداعي (إن وجد)
nsfw ClassLabel int64 علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height العددية int32 الارتفاع الأصلي للصورة
original_width العددية int32 العرض الأصلي للصورة
تشابه العددية float64 درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0 [0.0، 1.0]
text_embedding الموتر (512،) تعويم16 تضمين النص CLIP
عنوان URL نص خيط عنوان URL للصورة