- الوصف :
مجموعة البيانات LAION-400M مفتوحة تمامًا ويمكن الوصول إليها مجانًا.
تحقق من https://laion.ai/laion-400-open-dataset/ للحصول على الوصف الكامل لمجموعة البيانات هذه.
تمت تصفية جميع الصور والنصوص في مجموعة بيانات LAION-400M باستخدام CLIP الخاص بـ OpenAI من خلال حساب تشابه جيب التمام بين النص والصورة ، وإسقاط تلك التي لها تشابه أقل من 0.3. تم تحديد عتبة 0.3 من خلال التقييمات البشرية ويبدو أنها وسيلة إرشادية جيدة لتقدير مطابقة محتوى الصورة والنص الدلالي.
تم استخراج أزواج الصور والنصوص من ملف تفريغ بيانات ويب الزحف المشترك وهي من صفحات ويب عشوائية تم الزحف إليها بين عامي 2014 و 2021.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://laion.ai/blog/laion-400-open-dataset/
كود المصدر :
tfds.vision_language.laion400m.Laion400m
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التنزيل :
Unknown size
حجم مجموعة البيانات :
Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
راجع قسم "معلومات التنزيل" على https://laion.ai/blog/laion-400-open-dataset/التخزين المؤقت التلقائي ( الوثائق ): غير معروف
الانقسامات :
ينقسم | أمثلة |
---|
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ): مفقود.
الاقتباس :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m / الصور (التكوين الافتراضي)
- هيكل الميزة :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف | مدى القيمة |
---|---|---|---|---|---|
الميزات | |||||
التسمية التوضيحية | نص | خيط | سمة النص البديل لـ HTML | ||
صورة | صورة | (لا شيء ، لا شيء ، 3) | uint8 | صورة | |
رخصة | نص | خيط | نوع ترخيص المشاع الإبداعي (إن وجد) | ||
نسفو | ClassLabel | int64 | علامة NSFW (تم الكشف عنها بواسطة CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED | ||
original_height | العددية | int32 | الارتفاع الأصلي للصورة | ||
original_width | العددية | int32 | العرض الأصلي للصورة | ||
تشابه | العددية | تعويم 64 | درجة تشابه جيب التمام بين تضمين النص والصورة. القيم المفقودة هي الافتراضي -1.0 | [0.0 ، 1.0] | |
عنوان url | نص | خيط | رابط الصورة |
لايون 400 م / حفلات الزفاف
- هيكل الميزة :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف | مدى القيمة |
---|---|---|---|---|---|
الميزات | |||||
التسمية التوضيحية | نص | خيط | سمة النص البديل لـ HTML | ||
دمج الصور | موتر | (512 ،) | تعويم 16 | تضمين صورة CLIP | |
رخصة | نص | خيط | نوع ترخيص المشاع الإبداعي (إن وجد) | ||
نسفو | ClassLabel | int64 | علامة NSFW (تم الكشف عنها بواسطة CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED | ||
original_height | العددية | int32 | الارتفاع الأصلي للصورة | ||
original_width | العددية | int32 | العرض الأصلي للصورة | ||
تشابه | العددية | تعويم 64 | درجة تشابه جيب التمام بين تضمين النص والصورة. القيم المفقودة هي الافتراضي -1.0 | [0.0 ، 1.0] | |
دمج النص | موتر | (512 ،) | تعويم 16 | تضمين نص CLIP | |
عنوان url | نص | خيط | رابط الصورة |