wiki40b

  • Mô tả :

Văn bản dọn dẹp cho hơn 40 phiên bản ngôn ngữ Wikipedia của các trang tương ứng với các thực thể. Các bộ dữ liệu có sự phân chia đào tạo/dev/kiểm tra cho mỗi ngôn ngữ. Tập dữ liệu được làm sạch bằng cách lọc trang để xóa các trang định hướng, trang chuyển hướng, trang đã xóa và các trang không phải thực thể. Mỗi ví dụ chứa id wikidata của thực thể và bài viết Wikipedia đầy đủ sau khi xử lý trang sẽ loại bỏ các phần không có nội dung và đối tượng có cấu trúc. Các mô hình ngôn ngữ được đào tạo trên kho ngữ liệu này - bao gồm 41 mô hình đơn ngữ và 2 mô hình đa ngôn ngữ - có thể được tìm thấy tại https://tfhub.dev/google/collections/wiki40b-lm/1

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
chữ Chữ sợi dây
phiên bản_id Chữ sợi dây
wikidata_id Chữ sợi dây
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho en.

  • Kích thước tập dữ liệu : 9.91 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 162.274
'train' 2.926.536
'validation' 163.597

wiki40b/ar

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ar.

  • Kích thước tập dữ liệu : 833.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 12.271
'train' 220.885
'validation' 12.198

wiki40b/zh-cn

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho zh-cn.

  • Kích thước tập dữ liệu : 985.53 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 30.355
'train' 549.672
'validation' 30.299

wiki40b/zh-tw

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho zh-tw.

  • Kích thước tập dữ liệu : 986.45 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 30.670
'train' 552.031
'validation' 30,739

wiki40b/nl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho nl.

  • Kích thước tập dữ liệu : 961.82 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 24.776
'train' 447.555
'validation' 25.201

wiki40b/fr

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fr.

  • Kích thước tập dữ liệu : 3.37 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 68.004
'train' 1.227.206
'validation' 68.655

wiki40b/de

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho de.

  • Kích thước tập dữ liệu : 4.78 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 86.594
'train' 1.554.910
'validation' 86.068

wiki40b/nó

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho nó.

  • Kích thước tập dữ liệu : 2.00 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 40.443
'train' 732.609
'validation' 40.684

wiki40b/ja

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ja.

  • Kích thước tập dữ liệu : 2.19 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 41.268
'train' 745.392
'validation' 41.576

wiki40b/ko

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ko.

  • Kích thước tập dữ liệu : 453.98 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 10,802
'train' 194.977
'validation' 10,805

wiki40b/pl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho pl.

  • Kích thước tập dữ liệu : 1.03 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 27.987
'train' 505.191
'validation' 28.310

wiki40b/pt

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho pt.

  • Kích thước tập dữ liệu : 1.08 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 22.693
'train' 406.507
'validation' 22.301

wiki40b/ru

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ru.

  • Kích thước tập dữ liệu : 4.13 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 51.885
'train' 926.037
'validation' 51.287

wiki40b/es

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho es.

  • Kích thước tập dữ liệu : 2.70 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 48.764
'train' 872.541
'validation' 48.592

wiki40b/th

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho th.

  • Kích thước tập dữ liệu : 326.29 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 3.114
'train' 56.798
'validation' 3.093

wiki40b/tr

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho tr.

  • Kích thước tập dữ liệu : 308.87 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 7.890
'train' 142.576
'validation' 7,845

wiki40b/bg

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho bg.

  • Kích thước tập dữ liệu : 433.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 7.289
'train' 130.670
'validation' 7.259

wiki40b/ca

  • Mô tả cấu hình : Tập dữ liệu Wiki40B cho ca.

  • Kích thước tập dữ liệu : 753.00 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 15.568
'train' 277.313
'validation' 15.362

wiki40b/cs

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho cs.

  • Kích thước tập dữ liệu : 631.84 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 12.984
'train' 235.971
'validation' 13.096

wiki40b/da

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho da.

  • Kích thước tập dữ liệu : 240.51 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'test' 6.219
'train' 109.486
'validation' 6.173

wiki40b/el

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho el.

  • Kích thước tập dữ liệu : 524.77 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 5.261
'train' 93.596
'validation' 5.130

wiki40b/et

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho et.

  • Kích thước tập dữ liệu : 184.07 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'test' 6.205
'train' 114.464
'validation' 6.351

wiki40b/fa

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fa.

  • Kích thước tập dữ liệu : 482.55 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 11.262
'train' 203.145
'validation' 11.180

wiki40b/fi

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fi.

  • Kích thước tập dữ liệu : 534.13 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 14.179
'train' 255.822
'validation' 13.962

wiki40b/anh ấy

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho he.

  • Kích thước tập dữ liệu : 869.51 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 9,344
'train' 165.359
'validation' 9.231

wiki40b/xin chào

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hi.

  • Kích thước tập dữ liệu : 277.56 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 2.643
'train' 45.737
'validation' 2.596

wiki40b/giờ

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hr.

  • Kích thước tập dữ liệu : 235.58 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'test' 5,724
'train' 103.857
'validation' 5,792

wiki40b/hu

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hu.

  • Kích thước tập dữ liệu : 634.25 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 15.258
'train' 273.248
'validation' 15.208

wiki40b/id

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho id.

  • Kích thước tập dữ liệu : 334.06 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 8,598
'train' 156.255
'validation' 8,714

wiki40b/lt

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho lt.

  • Kích thước tập dữ liệu : 140.46 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra Ví dụ
'test' 4.683
'train' 84.854
'validation' 4.754

wiki40b/lv

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho lv.

  • Kích thước tập dữ liệu : 80.07 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra Ví dụ
'test' 1.932
'train' 33.064
'validation' 1,857

wiki40b/ms

  • Mô tả cấu hình : Tập dữ liệu Wiki40B cho ms.

  • Kích thước tập dữ liệu : 142.49 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'test' 5.235
'train' 97,509
'validation' 5.357

wiki40b/không

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho số.

  • Kích thước tập dữ liệu : 382.03 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 10,588
'train' 190.588
'validation' 10,547

wiki40b/ro

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ro.

  • Kích thước tập dữ liệu : 319.68 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 7.870
'train' 139.615
'validation' 7.624

wiki40b/sk

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sk.

  • Kích thước tập dữ liệu : 170.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'test' 5,741
'train' 103.095
'validation' 5.604

wiki40b/sl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sl.

  • Kích thước tập dữ liệu : 157.38 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'test' 3.341
'train' 60.927
'validation' 3,287

wiki40b/sr

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sr.

  • Kích thước tập dữ liệu : 582.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 17.997
'train' 327.313
'validation' 18.100

wiki40b/sv

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sv.

  • Kích thước tập dữ liệu : 613.62 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 22.291
'train' 400.742
'validation' 22.263

wiki40b/tl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho tl.

  • Kích thước tập dữ liệu : 29.04 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra Ví dụ
'test' 1.446
'train' 25.940
'validation' 1,472

wiki40b/uk

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho Vương quốc Anh.

  • Kích thước tập dữ liệu : 1.67 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 26.581
'train' 477.618
'validation' 26.324

wiki40b/vi

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho vi.

  • Kích thước tập dữ liệu : 497.70 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Chia tách :

Tách ra Ví dụ
'test' 7.942
'train' 146.255
'validation' 8.195