lm1b

  • Mô tả:

Một kho dữ liệu điểm chuẩn được sử dụng để đo lường tiến độ trong mô hình ngôn ngữ thống kê. Điều này có gần một tỷ từ trong dữ liệu đào tạo.

Tách ra Các ví dụ
'test' 306.688
'train' 30,301,028
  • Các tính năng:
FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@article{DBLP:journals/corr/ChelbaMSGBK13,
  author    = {Ciprian Chelba and
               Tomas Mikolov and
               Mike Schuster and
               Qi Ge and
               Thorsten Brants and
               Phillipp Koehn},
  title     = {One Billion Word Benchmark for Measuring Progress in Statistical Language
               Modeling},
  journal   = {CoRR},
  volume    = {abs/1312.3005},
  year      = {2013},
  url       = {http://arxiv.org/abs/1312.3005},
  archivePrefix = {arXiv},
  eprint    = {1312.3005},
  timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}