ドルマ

説明：

Dolma: 言語モデルの事前トレーニング研究のための 3 兆トークンのオープンコーパス

ホームページ: https://github.com/allenai/dolma
ソースコード: tfds.datasets.dolma.Builder
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
ダウンロードサイズ: Unknown size
データセットのサイズ: 9.61 TiB
自動キャッシュ(ドキュメント): いいえ
分割:

スプリット	例
`'train'`	3,403,336,408

機能の構造:

FeaturesDict({
    'added': Text(shape=(), dtype=string),
    'created': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

機能ドキュメント:

特徴	クラス	Dタイプ
	特徴辞書
追加した	文章	弦
作成されました	文章	弦
ID	文章	弦
ソース	文章	弦
文章	文章	弦

監視キー( as_supervised doc を参照): None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{dolma,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
  author = {
    Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
    Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
    Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
    Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
    Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
    Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
    Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
  year = {2024},
  journal={arXiv preprint},
}

ドルマ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ドルマ