wiki40b

  • Mô tả :

Làm sạch văn bản cho hơn 40 phiên bản Wikipedia ngôn ngữ của các trang tương ứng với các thực thể. Các bộ dữ liệu có phân chia huấn luyện / phát triển / thử nghiệm cho mỗi ngôn ngữ. Tập dữ liệu được làm sạch bằng cách lọc trang để loại bỏ các trang định hướng, trang chuyển hướng, trang đã xóa và các trang không phải thực thể. Mỗi ví dụ chứa id wikidata của thực thể và toàn bộ bài viết Wikipedia sau khi xử lý trang sẽ xóa các phần không phải nội dung và các đối tượng có cấu trúc. Các mô hình ngôn ngữ được đào tạo trên tập tài liệu này - bao gồm 41 mô hình đơn ngữ và 2 mô hình đa ngôn ngữ - có thể được tìm thấy tại https: //hub.tensorflow.google.cn/ google / collection / wiki40b-lm / 1.

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
chữ Chữ tf.string
version_id Chữ tf.string
wikidata_id Chữ tf.string
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b / en (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho en.

  • Kích thước tập dữ liệu : 9.91 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 162.274
'train' 2.926.536
'validation' 163.597

wiki40b / ar

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ar.

  • Kích thước tập dữ liệu: 833.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 12.271
'train' 220.885
'validation' 12,198

wiki40b / zh-cn

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho zh-cn.

  • Kích thước tập dữ liệu: 985.53 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 30.355
'train' 549.672
'validation' 30.299

wiki40b / zh-tw

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho zh-tw.

  • Kích thước tập dữ liệu: 986.45 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 30.670
'train' 552.031
'validation' 30.739

wiki40b / nl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho nl.

  • Kích thước tập dữ liệu: 961.82 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 24,776
'train' 447.555
'validation' 25,201

wiki40b / fr

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fr.

  • Kích thước tập dữ liệu : 3.37 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 68.004
'train' 1.227.206
'validation' 68,655

wiki40b / de

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho de.

  • Kích thước tập dữ liệu : 4.78 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 86.594
'train' 1.554.910
'validation' 86.068

wiki40b / it

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho nó.

  • Kích thước tập dữ liệu : 2.00 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 40.443
'train' 732.609
'validation' 40.684

wiki40b / ja

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ja.

  • Kích thước tập dữ liệu : 2.19 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 41.268
'train' 745.392
'validation' 41.576

wiki40b / ko

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ko.

  • Kích thước tập dữ liệu: 453.98 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 10.802
'train' 194,977
'validation' 10.805

wiki40b / pl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho pl.

  • Kích thước tập dữ liệu : 1.03 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 27.987
'train' 505.191
'validation' 28.310

wiki40b / pt

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho pt.

  • Kích thước tập dữ liệu : 1.08 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 22.693
'train' 406.507
'validation' 22.301

wiki40b / ru

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ru.

  • Kích thước tập dữ liệu : 4.13 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 51.885
'train' 926.037
'validation' 51.287

wiki40b / es

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho es.

  • Kích thước tập dữ liệu : 2.70 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 48.764
'train' 872.541
'validation' 48.592

wiki40b / th

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho th.

  • Kích thước tập dữ liệu: 326.29 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 3.114
'train' 56,798
'validation' 3.093

wiki40b / tr

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho tr.

  • Kích thước tập dữ liệu: 308.87 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 7.890
'train' 142.576
'validation' 7.845

wiki40b / bg

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho bg.

  • Kích thước tập dữ liệu: 433.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 7.289
'train' 130.670
'validation' 7.259

wiki40b / ca

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ca.

  • Kích thước tập dữ liệu: 753.00 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 15.568
'train' 277.313
'validation' 15.362

wiki40b / cs

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho cs.

  • Kích thước tập dữ liệu: 631.84 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 12,984
'train' 235.971
'validation' 13.096

wiki40b / da

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho da.

  • Kích thước tập dữ liệu: 240.51 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 6.219
'train' 109.486
'validation' 6.173

wiki40b / el

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho el.

  • Kích thước tập dữ liệu: 524.77 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 5.261
'train' 93.596
'validation' 5.130

wiki40b / et

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho et.

  • Kích thước tập dữ liệu: 184.07 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 6,205
'train' 114.464
'validation' 6.351

wiki40b / fa

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fa.

  • Kích thước tập dữ liệu: 482.55 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 11.262
'train' 203.145
'validation' 11.180

wiki40b / fi

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho fi.

  • Kích thước tập dữ liệu : 534.13 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 14.179
'train' 255.822
'validation' 13,962

wiki40b / anh ấy

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho anh ta.

  • Kích thước tập dữ liệu: 869.51 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 9.344
'train' 165.359
'validation' 9.231

wiki40b / xin chào

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hi.

  • Kích thước tập dữ liệu: 277.56 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 2.643
'train' 45.737
'validation' 2.596

wiki40b / giờ

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho giờ.

  • Kích thước tập dữ liệu: 235.58 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 5,724
'train' 103.857
'validation' 5.792

wiki40b / hu

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho hu.

  • Kích thước tập dữ liệu: 634.25 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 15,258
'train' 273.248
'validation' 15,208

wiki40b / id

  • Mô tả cấu hình : Tập dữ liệu Wiki40B cho id.

  • Kích thước tập dữ liệu: 334.06 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 8.598
'train' 156.255
'validation' 8.714

wiki40b / lt

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho lt.

  • Kích thước tập dữ liệu: 140.46 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 4.683
'train' 84.854
'validation' 4.754

wiki40b / lv

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho lv.

  • Kích thước tập dữ liệu: 80.07 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.932
'train' 33.064
'validation' 1.857

wiki40b / mili giây

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ms.

  • Kích thước tập dữ liệu: 142.49 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 5.235
'train' 97.509
'validation' 5.357

wiki40b / không

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho không.

  • Kích thước tập dữ liệu: 382.03 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 10.588
'train' 190.588
'validation' 10,547

wiki40b / ro

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho ro.

  • Kích thước tập dữ liệu: 319.68 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 7.870
'train' 139.615
'validation' 7.624

wiki40b / sk

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sk.

  • Kích thước tập dữ liệu: 170.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 5.741
'train' 103.095
'validation' 5.604

wiki40b / sl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sl.

  • Kích thước tập dữ liệu: 157.38 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Tách :

Tách ra Các ví dụ
'test' 3.341
'train' 60,927
'validation' 3.287

wiki40b / sr

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sr.

  • Kích thước tập dữ liệu: 582.20 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 17.997
'train' 327.313
'validation' 18.100

wiki40b / sv

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho sv.

  • Kích thước tập dữ liệu: 613.62 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 22.291
'train' 400.742
'validation' 22.263

wiki40b / tl

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho tl.

  • Kích thước tập dữ liệu : 29.04 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 1.446
'train' 25,940
'validation' 1,472

wiki40b / uk

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho uk.

  • Kích thước tập dữ liệu : 1.67 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 26.581
'train' 477.618
'validation' 26.324

wiki40b / vi

  • Mô tả cấu hình : Bộ dữ liệu Wiki40B cho vi.

  • Kích thước tập dữ liệu: 497.70 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 7.942
'train' 146.255
'validation' 8.195