دلمه

توضیحات :

Dolma: مجموعه ای باز از سه تریلیون نشانه برای تحقیقات پیش آموزش مدل زبان

صفحه اصلی : https://github.com/allenai/dolma
کد منبع : tfds.datasets.dolma.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
اندازه دانلود : Unknown size
اندازه مجموعه داده : 9.61 TiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

تقسیم کنید	نمونه ها
`'train'`	3,403,336,408

ساختار ویژگی :

FeaturesDict({
    'added': Text(shape=(), dtype=string),
    'created': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
اضافه شده است	متن	رشته
ایجاد شده است	متن	رشته
شناسه	متن	رشته
منبع	متن	رشته
متن	متن	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{dolma,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
  author = {
    Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
    Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
    Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
    Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
    Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
    Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
    Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
  year = {2024},
  journal={arXiv preprint},
}

دلمه با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

دلمه