laion400m

وصف :

مجموعة بيانات LAION-400M مفتوحة تمامًا ويمكن الوصول إليها مجانًا.

راجع https://laion.ai/laion-400-open-dataset/ للحصول على الوصف الكامل لمجموعة البيانات هذه.

تمت تصفية جميع الصور والنصوص في مجموعة بيانات LAION-400M باستخدام OpenAI's CLIP عن طريق حساب تشابه جيب التمام بين النص وتضمينات الصور وإسقاط تلك التي لها تشابه أقل من 0.3. تم تحديد عتبة 0.3 من خلال التقييمات البشرية ويبدو أنها أداة إرشادية جيدة لتقدير المطابقة الدلالية لمحتوى الصورة والنص.

تم استخراج أزواج الصور والنص من تفريغ بيانات الويب Common Crawl وهي من صفحات الويب العشوائية التي تم الزحف إليها بين عامي 2014 و2021.

وثائق إضافية : استكشف الأوراق ذات الكود
الصفحة الرئيسية : https://laion.ai/blog/laion-400-open-dataset/
كود المصدر : tfds.vision_language.laion400m.Laion400m
الإصدارات :
- 1.0.0 (افتراضي): الإصدار الأولي.
حجم التحميل : Unknown size
حجم مجموعة البيانات : Unknown size
تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى download_config.manual_dir (الإعداد الافتراضي هو ~/tensorflow_datasets/downloads/manual/ ):
راجع قسم "تنزيل المعلومات" على https://laion.ai/blog/laion-400-open-dataset/
التخزين المؤقت التلقائي ( الوثائق ): غير معروف
الإنشقاقات :

ينقسم	أمثلة

المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ): مفقود.
الاقتباس :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (التكوين الافتراضي)

هيكل الميزة :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع D	وصف	نطاق القيمة
	المميزاتDict
التسمية التوضيحية	نص		خيط	سمة النص البديل HTML
صورة	صورة	(لا شيء، لا شيء، 3)	uint8	صورة
رخصة	نص		خيط	نوع ترخيص المشاع الإبداعي (إن وجد)
nsfw	ClassLabel		int64	علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height	العددية		int32	الارتفاع الأصلي للصورة
original_width	العددية		int32	العرض الأصلي للصورة
تشابه	العددية		float64	درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0	[0.0، 1.0]
عنوان URL	نص		خيط	عنوان URL للصورة

laion400m/embeddings

هيكل الميزة :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع D	وصف	نطاق القيمة
	المميزاتDict
التسمية التوضيحية	نص		خيط	سمة النص البديل HTML
image_embedding	الموتر	(512،)	تعويم16	تضمين الصور CLIP
رخصة	نص		خيط	نوع ترخيص المشاع الإبداعي (إن وجد)
nsfw	ClassLabel		int64	علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height	العددية		int32	الارتفاع الأصلي للصورة
original_width	العددية		int32	العرض الأصلي للصورة
تشابه	العددية		float64	درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0	[0.0، 1.0]
text_embedding	الموتر	(512،)	تعويم16	تضمين النص CLIP
عنوان URL	نص		خيط	عنوان URL للصورة