lm1b, lm1b

  • Mô tả :

Một kho văn bản chuẩn được sử dụng để đo lường tiến độ trong mô hình ngôn ngữ thống kê. Điều này có gần một tỷ từ trong dữ liệu đào tạo.

Tách ra ví dụ
'test' 306.688
'train' 30.301.028
  • Cấu trúc tính năng :
FeaturesDict({
   
'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
chữ Chữ sợi dây
  • trích dẫn :
@article{DBLP:journals/corr/ChelbaMSGBK13,
  author    
= {Ciprian Chelba and
               
Tomas Mikolov and
               
Mike Schuster and
               
Qi Ge and
               
Thorsten Brants and
               
Phillipp Koehn},
  title    
= {One Billion Word Benchmark for Measuring Progress in Statistical Language
               
Modeling},
  journal  
= {CoRR},
  volume    
= {abs/1312.3005},
  year      
= {2013},
  url      
= {http://arxiv.org/abs/1312.3005},
  archivePrefix
= {arXiv},
  eprint    
= {1312.3005},
  timestamp
= {Mon, 13 Aug 2018 16:46:16 +0200},
  biburl    
= {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}