- توضیحات :
یک مجموعه معیار برای اندازهگیری پیشرفت در مدلسازی زبان آماری. این تقریباً یک میلیارد کلمه در داده های آموزشی دارد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.statmt.org/lm-benchmark/
کد منبع :
tfds.datasets.lm1b.Builder
نسخه ها :
-
1.1.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
1.67 GiB
حجم مجموعه داده :
4.40 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 306688 |
'train' | 30,301,028 |
- ساختار ویژگی :
FeaturesDict({
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
متن | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'text')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}