एलएम1बी, एलएम1बी

  • विवरण :

सांख्यिकीय भाषा मॉडलिंग में प्रगति को मापने के लिए उपयोग किया जाने वाला बेंचमार्क कॉर्पस। प्रशिक्षण डेटा में इसके लगभग एक बिलियन शब्द हैं।

विभाजित करना उदाहरण
'test' 306,688
'train' 30,301,028
  • फ़ीचर संरचना :
FeaturesDict({
   
'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
मूलपाठ मूलपाठ डोरी
  • उद्धरण :
@article{DBLP:journals/corr/ChelbaMSGBK13,
  author    
= {Ciprian Chelba and
               
Tomas Mikolov and
               
Mike Schuster and
               
Qi Ge and
               
Thorsten Brants and
               
Phillipp Koehn},
  title    
= {One Billion Word Benchmark for Measuring Progress in Statistical Language
               
Modeling},
  journal  
= {CoRR},
  volume    
= {abs/1312.3005},
  year      
= {2013},
  url      
= {http://arxiv.org/abs/1312.3005},
  archivePrefix
= {arXiv},
  eprint    
= {1312.3005},
  timestamp
= {Mon, 13 Aug 2018 16:46:16 +0200},
  biburl    
= {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}