lm1b, lm1b

Mô tả :

Một kho văn bản chuẩn được sử dụng để đo lường tiến độ trong mô hình ngôn ngữ thống kê. Điều này có gần một tỷ từ trong dữ liệu đào tạo.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.statmt.org/lm-benchmark/
Mã nguồn : tfds.datasets.lm1b.Builder
Phiên bản :
- 1.1.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 1.67 GiB
Kích thước tập dữ liệu : 4.40 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	306.688
`'train'`	30.301.028

Cấu trúc tính năng :

FeaturesDict({
    'text': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype	Sự mô tả
	Tính năngDict
chữ	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('text', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{DBLP:journals/corr/ChelbaMSGBK13,
  author    = {Ciprian Chelba and
               Tomas Mikolov and
               Mike Schuster and
               Qi Ge and
               Thorsten Brants and
               Phillipp Koehn},
  title     = {One Billion Word Benchmark for Measuring Progress in Statistical Language
               Modeling},
  journal   = {CoRR},
  volume    = {abs/1312.3005},
  year      = {2013},
  url       = {http://arxiv.org/abs/1312.3005},
  archivePrefix = {arXiv},
  eprint    = {1312.3005},
  timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

lm1b, lm1b Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

lm1b, lm1b