- Mô tả :
Văn bản dọn dẹp cho hơn 40 phiên bản ngôn ngữ Wikipedia của các trang tương ứng với các thực thể. Các bộ dữ liệu có sự phân chia đào tạo/dev/kiểm tra cho mỗi ngôn ngữ. Tập dữ liệu được làm sạch bằng cách lọc trang để xóa các trang định hướng, trang chuyển hướng, trang đã xóa và các trang không phải thực thể. Mỗi ví dụ chứa id wikidata của thực thể và bài viết Wikipedia đầy đủ sau khi xử lý trang sẽ loại bỏ các phần không có nội dung và đối tượng có cấu trúc. Các mô hình ngôn ngữ được đào tạo trên kho ngữ liệu này - bao gồm 41 mô hình đơn ngữ và 2 mô hình đa ngôn ngữ - có thể được tìm thấy tại https://tfhub.dev/google/collections/wiki40b-lm/1
Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : https://research.google/pubs/pub49029/
Mã nguồn :
tfds.text.Wiki40b
Phiên bản :
-
1.3.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Cấu trúc tính năng :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chữ | Chữ | sợi dây | ||
phiên bản_id | Chữ | sợi dây | ||
wikidata_id | Chữ | sợi dây |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho en.
Kích thước tập dữ liệu :
9.91 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 162.274 |
'train' | 2.926.536 |
'validation' | 163.597 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ar
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ar.
Kích thước tập dữ liệu :
833.20 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 12.271 |
'train' | 220.885 |
'validation' | 12.198 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/zh-cn
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho zh-cn.
Kích thước tập dữ liệu :
985.53 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 30.355 |
'train' | 549.672 |
'validation' | 30.299 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/zh-tw
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho zh-tw.
Kích thước tập dữ liệu :
986.45 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 30.670 |
'train' | 552.031 |
'validation' | 30,739 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/nl
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho nl.
Kích thước tập dữ liệu :
961.82 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 24.776 |
'train' | 447.555 |
'validation' | 25.201 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/fr
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fr.
Kích thước tập dữ liệu :
3.37 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 68.004 |
'train' | 1.227.206 |
'validation' | 68.655 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/de
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho de.
Kích thước tập dữ liệu :
4.78 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 86.594 |
'train' | 1.554.910 |
'validation' | 86.068 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/nó
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho nó.
Kích thước tập dữ liệu :
2.00 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 40.443 |
'train' | 732.609 |
'validation' | 40.684 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ja
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ja.
Kích thước tập dữ liệu :
2.19 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 41.268 |
'train' | 745.392 |
'validation' | 41.576 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ko
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ko.
Kích thước tập dữ liệu :
453.98 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 10,802 |
'train' | 194.977 |
'validation' | 10,805 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/pl
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho pl.
Kích thước tập dữ liệu :
1.03 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 27.987 |
'train' | 505.191 |
'validation' | 28.310 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/pt
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho pt.
Kích thước tập dữ liệu :
1.08 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 22.693 |
'train' | 406.507 |
'validation' | 22.301 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ru
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ru.
Kích thước tập dữ liệu :
4.13 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 51.885 |
'train' | 926.037 |
'validation' | 51.287 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/es
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho es.
Kích thước tập dữ liệu :
2.70 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 48.764 |
'train' | 872.541 |
'validation' | 48.592 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/th
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho th.
Kích thước tập dữ liệu :
326.29 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 3.114 |
'train' | 56.798 |
'validation' | 3.093 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/tr
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho tr.
Kích thước tập dữ liệu :
308.87 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 7.890 |
'train' | 142.576 |
'validation' | 7,845 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/bg
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho bg.
Kích thước tập dữ liệu :
433.20 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 7.289 |
'train' | 130.670 |
'validation' | 7.259 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ca
Mô tả cấu hình : Tập dữ liệu Wiki40B cho ca.
Kích thước tập dữ liệu :
753.00 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 15.568 |
'train' | 277.313 |
'validation' | 15.362 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/cs
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho cs.
Kích thước tập dữ liệu :
631.84 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 12.984 |
'train' | 235.971 |
'validation' | 13.096 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/da
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho da.
Kích thước tập dữ liệu :
240.51 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 6.219 |
'train' | 109.486 |
'validation' | 6.173 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/el
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho el.
Kích thước tập dữ liệu :
524.77 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 5.261 |
'train' | 93.596 |
'validation' | 5.130 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/et
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho et.
Kích thước tập dữ liệu :
184.07 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 6.205 |
'train' | 114.464 |
'validation' | 6.351 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/fa
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fa.
Kích thước tập dữ liệu :
482.55 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 11.262 |
'train' | 203.145 |
'validation' | 11.180 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/fi
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fi.
Kích thước tập dữ liệu :
534.13 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 14.179 |
'train' | 255.822 |
'validation' | 13.962 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/anh ấy
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho he.
Kích thước tập dữ liệu :
869.51 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 9,344 |
'train' | 165.359 |
'validation' | 9.231 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/xin chào
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hi.
Kích thước tập dữ liệu :
277.56 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 2.643 |
'train' | 45.737 |
'validation' | 2.596 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/giờ
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hr.
Kích thước tập dữ liệu :
235.58 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 5,724 |
'train' | 103.857 |
'validation' | 5,792 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/hu
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hu.
Kích thước tập dữ liệu :
634.25 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 15.258 |
'train' | 273.248 |
'validation' | 15.208 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/id
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho id.
Kích thước tập dữ liệu :
334.06 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 8,598 |
'train' | 156.255 |
'validation' | 8,714 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/lt
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho lt.
Kích thước tập dữ liệu :
140.46 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 4.683 |
'train' | 84.854 |
'validation' | 4.754 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/lv
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho lv.
Kích thước tập dữ liệu :
80.07 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 1.932 |
'train' | 33.064 |
'validation' | 1,857 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ms
Mô tả cấu hình : Tập dữ liệu Wiki40B cho ms.
Kích thước tập dữ liệu :
142.49 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 5.235 |
'train' | 97,509 |
'validation' | 5.357 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/không
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho số.
Kích thước tập dữ liệu :
382.03 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 10,588 |
'train' | 190.588 |
'validation' | 10,547 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/ro
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ro.
Kích thước tập dữ liệu :
319.68 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 7.870 |
'train' | 139.615 |
'validation' | 7.624 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/sk
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sk.
Kích thước tập dữ liệu :
170.20 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 5,741 |
'train' | 103.095 |
'validation' | 5.604 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/sl
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sl.
Kích thước tập dữ liệu :
157.38 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 3.341 |
'train' | 60.927 |
'validation' | 3,287 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/sr
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sr.
Kích thước tập dữ liệu :
582.20 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 17.997 |
'train' | 327.313 |
'validation' | 18.100 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/sv
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sv.
Kích thước tập dữ liệu :
613.62 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 22.291 |
'train' | 400.742 |
'validation' | 22.263 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/tl
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho tl.
Kích thước tập dữ liệu :
29.04 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 1.446 |
'train' | 25.940 |
'validation' | 1,472 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/uk
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho Vương quốc Anh.
Kích thước tập dữ liệu :
1.67 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 26.581 |
'train' | 477.618 |
'validation' | 26.324 |
- Ví dụ ( tfds.as_dataframe ):
wiki40b/vi
Mô tả cấu hình : Bộ dữ liệu Wiki40B cho vi.
Kích thước tập dữ liệu :
497.70 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 7.942 |
'train' | 146.255 |
'validation' | 8.195 |
- Ví dụ ( tfds.as_dataframe ):