dolma

Tanım :

Dolma: Dil Modeli Eğitim Öncesi Araştırması için Üç Trilyonluk Jetondan Oluşan Açık Bir Derlem

Ana sayfa : https://github.com/allenai/dolma
Kaynak kodu : tfds.datasets.dolma.Builder
Sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
İndirme boyutu : Unknown size
Veri kümesi boyutu : 9.61 TiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :

Bölmek	Örnekler
`'train'`	3.403.336.408

Özellik yapısı :

FeaturesDict({
    'added': Text(shape=(), dtype=string),
    'created': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
eklendi	Metin	sicim
yaratıldı	Metin	sicim
İD	Metin	sicim
kaynak	Metin	sicim
metin	Metin	sicim

Denetlenen anahtarlar ( as_supervised belgesine bakın): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):

Alıntı :

@article{dolma,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
  author = {
    Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
    Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
    Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
    Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
    Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
    Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
    Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
  year = {2024},
  journal={arXiv preprint},
}

dolma Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

dolma