- विवरण :
सांख्यिकीय भाषा मॉडलिंग में प्रगति को मापने के लिए उपयोग किया जाने वाला बेंचमार्क कॉर्पस। प्रशिक्षण डेटा में इसके लगभग एक बिलियन शब्द हैं।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : http://www.statmt.org/lm-benchmark/
स्रोत कोड :
tfds.datasets.lm1b.Builderसंस्करण :
-
1.1.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
1.67 GiBडेटासेट का आकार :
4.40 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 306,688 |
'train' | 30,301,028 |
- फ़ीचर संरचना :
FeaturesDict({
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| मूलपाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('text', 'text')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}