- Mô tả :
Một kho văn bản chuẩn được sử dụng để đo lường tiến độ trong mô hình ngôn ngữ thống kê. Điều này có gần một tỷ từ trong dữ liệu đào tạo.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.statmt.org/lm-benchmark/
Mã nguồn :
tfds.datasets.lm1b.Builder
Phiên bản :
-
1.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
1.67 GiB
Kích thước tập dữ liệu :
4.40 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 306.688 |
'train' | 30.301.028 |
- Cấu trúc tính năng :
FeaturesDict({
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
chữ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}