دولما

وصف :

دولما: مجموعة مفتوحة مكونة من ثلاثة تريليونات رمز لأبحاث التدريب المسبق لنموذج اللغة

الصفحة الرئيسية : https://github.com/allenai/dolma
كود المصدر : tfds.datasets.dolma.Builder
الإصدارات :
- 1.0.0 (افتراضي): الإصدار الأولي.
حجم التحميل : Unknown size
حجم مجموعة البيانات : 9.61 TiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :

ينقسم	أمثلة
`'train'`	3,403,336,408

هيكل الميزة :

FeaturesDict({
    'added': Text(shape=(), dtype=string),
    'created': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	نوع D
	المميزاتDict
وأضاف	نص	خيط
مخلوق	نص	خيط
بطاقة تعريف	نص	خيط
مصدر	نص	خيط
نص	نص	خيط

المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):

الاقتباس :

@article{dolma,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
  author = {
    Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
    Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
    Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
    Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
    Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
    Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
    Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
  year = {2024},
  journal={arXiv preprint},
}

دولما تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

دولما