لايون 400 م ، لايون 400 م

  • الوصف :

مجموعة البيانات LAION-400M مفتوحة تمامًا ويمكن الوصول إليها مجانًا.

تحقق من https://laion.ai/laion-400-open-dataset/ للحصول على الوصف الكامل لمجموعة البيانات هذه.

تمت تصفية جميع الصور والنصوص في مجموعة بيانات LAION-400M باستخدام CLIP الخاص بـ OpenAI من خلال حساب تشابه جيب التمام بين النص والصورة ، وإسقاط تلك التي لها تشابه أقل من 0.3. تم تحديد عتبة 0.3 من خلال التقييمات البشرية ويبدو أنها وسيلة إرشادية جيدة لتقدير مطابقة محتوى الصورة والنص الدلالي.

تم استخراج أزواج الصور والنصوص من ملف تفريغ بيانات ويب الزحف المشترك وهي من صفحات ويب عشوائية تم الزحف إليها بين عامي 2014 و 2021.

ينقسم أمثلة
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m / الصور (التكوين الافتراضي)

  • هيكل الميزة :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف مدى القيمة
الميزات
التسمية التوضيحية نص خيط سمة النص البديل لـ HTML
صورة صورة (لا شيء ، لا شيء ، 3) uint8 صورة
رخصة نص خيط نوع ترخيص المشاع الإبداعي (إن وجد)
نسفو ClassLabel int64 علامة NSFW (تم الكشف عنها بواسطة CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height العددية int32 الارتفاع الأصلي للصورة
original_width العددية int32 العرض الأصلي للصورة
تشابه العددية تعويم 64 درجة تشابه جيب التمام بين تضمين النص والصورة. القيم المفقودة هي الافتراضي -1.0 [0.0 ، 1.0]
عنوان url نص خيط رابط الصورة

لايون 400 م / حفلات الزفاف

  • هيكل الميزة :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف مدى القيمة
الميزات
التسمية التوضيحية نص خيط سمة النص البديل لـ HTML
دمج الصور موتر (512 ،) تعويم 16 تضمين صورة CLIP
رخصة نص خيط نوع ترخيص المشاع الإبداعي (إن وجد)
نسفو ClassLabel int64 علامة NSFW (تم الكشف عنها بواسطة CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height العددية int32 الارتفاع الأصلي للصورة
original_width العددية int32 العرض الأصلي للصورة
تشابه العددية تعويم 64 درجة تشابه جيب التمام بين تضمين النص والصورة. القيم المفقودة هي الافتراضي -1.0 [0.0 ، 1.0]
دمج النص موتر (512 ،) تعويم 16 تضمين نص CLIP
عنوان url نص خيط رابط الصورة