c4

 • Mô tả:

Một phiên bản khổng lồ, được làm sạch của kho dữ liệu thu thập thông tin web của Common Crawl.

Dựa trên thông thường thu thập thông tin dữ liệu: https://commoncrawl.org

Để tạo ra bộ dữ liệu này, hãy làm theo các hướng dẫn từ t5 .

Do toàn bộ chi phí dọn dẹp tập dữ liệu, bạn nên chuẩn bị nó bằng một dịch vụ phân tán như Cloud Dataflow. Xem thêm thông tin tại https://www.tensorflow.org/datasets/beam_datasets

 • Trang chủ: https://github.com/google-research/text-to-text-transfer-transformer#datasets

 • Source code: tfds.text.C4

 • phiên bản:

  • 2.2.0 : Không có ghi chú phát hành.
  • 2.2.1 : Không có ghi chú phát hành.
  • 2.3.0 : Không có ghi chú phát hành.
  • 2.3.1 : Không có ghi chú phát hành.
  • 3.0.1 (mặc định): Không có ghi chú phát hành.
 • Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
  Bạn đang sử dụng cấu hình C4 yêu cầu một số tệp được tải xuống theo cách thủ công. Đối với c4/webtextlike , tải OpenWebText.zip từ https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ

 • Tự động lưu trữ ( tài liệu ): Không

 • Các tính năng:

FeaturesDict({
  'content-length': Text(shape=(), dtype=tf.string),
  'content-type': Text(shape=(), dtype=tf.string),
  'text': Text(shape=(), dtype=tf.string),
  'timestamp': Text(shape=(), dtype=tf.string),
  'url': Text(shape=(), dtype=tf.string),
})
@article{2019t5,
 author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
 title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
 journal = {arXiv e-prints},
 year = {2019},
 archivePrefix = {arXiv},
 eprint = {1910.10683},
}

c4 / en (cấu hình mặc định)

 • Config Mô tả: Tiếng Anh C4 tập dữ liệu.

 • Dung lượng tải về: 12.28 MiB

 • Kích thước tập dữ liệu: 806.92 GiB

 • tách:

Tách ra Các ví dụ
'train' 364.868.901
'validation' 364.608

c4 / en.noclean

 • Config mô tả: Vô hiệu hóa tất cả làm sạch (pc, loại bỏ dựa trên các từ xấu, vv)

 • Dung lượng tải về: 12.25 MiB

 • Dataset kích thước: 6.21 TiB

 • tách:

Tách ra Các ví dụ
'train' 1.063.805.324
'validation' 1.065.029

c4 / realnewslike

 • Config Mô tả: Bộ lọc từ các cấu hình mặc định để chỉ bao gồm nội dung từ các lĩnh vực được sử dụng trong các tập dữ liệu 'RealNews' (Zellers et al, 2019.).

 • Dung lượng tải về: 12.41 MiB

 • Kích thước tập dữ liệu: 36.89 GiB

 • tách:

Tách ra Các ví dụ
'train' 13.799.838
'validation' 13.863

c4 / webtextlike

 • Config Mô tả: Bộ lọc từ các cấu hình mặc định để chỉ bao gồm nội dung từ các URL trong OpenWebText ( https://github.com/jcpeterson/openwebtext ).

 • Dung lượng tải về: 14.12 MiB

 • Kích thước tập dữ liệu: 18.00 GiB

 • tách:

Tách ra Các ví dụ
'train' 4.500.788
'validation' 4.493

c4 / đa ngôn ngữ

 • Config mô tả: Đa ngôn ngữ C4 (MC4) có 101 ngôn ngữ và được tạo ra từ 71 Common Crawl bãi.

 • Dung lượng tải về: 22.74 MiB

 • Dataset kích thước: 26.76 TiB

 • tách:

Tách ra Các ví dụ
'af' 2.152.243
'af-validation' 2.118
'am' 162.870
'am-validation' 155
'ar' 53.256.040
'ar-validation' 52,978
'az' 5.285.720
'az-validation' 5.239
'be' 1.742.030
'be-validation' 1.712
'bg' 23.409.799
'bg-Latn' 162.461
'bg-Latn-validation' 144
'bg-validation' 23.503
'bn' 7.444.098
'bn-validation' 7.415
'ca' 14.492.899
'ca-validation' 14.489
'ceb' 351.894
'ceb-validation' 367
'co' 494,913
'co-validation' 565
'cs' 60.149.680
'cs-validation' 60.462
'cy' 4.131.915
'cy-validation' 4.103
'da' 28.777.331
'da-validation' 28.945
'de' 397.006.993
'de-validation' 398.583
'el' 41,753,736
'el-Latn' 449,943
'el-Latn-validation' 468
'el-validation' 42.358
'en' 3.079.081.989
'en-validation' 3.083.850
'eo' 500.048
'eo-validation' 496
'es' 416.057.992
'es-validation' 416,256
'et' 6.941.360
'et-validation' 6.848
'eu' 1.555.887
'eu-validation' 1.580
'fa' 53.927.287
'fa-validation' 53.685
'fi' 26.842.650
'fi-validation' 26.710
'fil' 2.102.197
'fil-validation' 2.158
'fr' 332.674.575
'fr-validation' 331.328
'fy' 1.104.359
'fy-validation' 1,094
'ga' 465.670
'ga-validation' 490
'gd' 322.404
'gd-validation' 338
'gl' 4.549.465
'gl-validation' 4,631
'gu' 631.600
'gu-validation' 651
'ha' 247.479
'ha-validation' 258
'haw' 84.312
'haw-validation' 86
'hi' 18.507.273
'hi-Latn' 626.154
'hi-Latn-validation' 638
'hi-validation' 18.392
'hmn' 295.549
'hmn-validation' 312
'ht' 269.174
'ht-validation' 281
'hu' 36.819.508
'hu-validation' 36,756
'hy' 2.401.949
'hy-validation' 2.410
'id' 69.625.551
'id-validation' 69,739
'ig' 92,909
'ig-validation' 87
'is' 2.069.293
'is-validation' 2.065
'it' 186.404.508
'it-validation' 186.030
'iw' 12,334,609
'iw-validation' 12.207
'ja' 87.337.884
'ja-Latn' 533.516
'ja-Latn-validation' 506
'ja-validation' 87.420
'jv' 581.528
'jv-validation' 609
'ka' 2.295.551
'ka-validation' 2.279
'kk' 2.392.401
'kk-validation' 2.400
'km' 756.612
'km-validation' 745
'kn' 1.056.849
'kn-validation' 1,039
'ko' 15.602.947
'ko-validation' 15,771
'ku' 298.389
'ku-validation' 298
'ky' 995.539
'ky-validation' 976
'la' 1.674.463
'la-validation' 1.654
'lb' 2.740.336
'lb-validation' 2.692
'lo' 141.776
'lo-validation' 145
'lt' 11.274.295
'lt-validation' 11.245
'lv' 6.414.223
'lv-validation' 6,598
'mg' 345.040
'mg-validation' 367
'mi' 101.169
'mi-validation' 106
'mk' 2.058.417
'mk-validation' 2.054
'ml' 2.044.981
'ml-validation' 2,002
'mn' 2.054.674
'mn-validation' 2.090
'mr' 7.774.331
'mr-validation' 7.928
'ms' 13.180.647
'ms-validation' 13.391
'mt' 2,261,303
'mt-validation' 2.322
'my' 813.530
'my-validation' 858
'ne' 2.942.785
'ne-validation' 2.951
'nl' 96.210.458
'nl-validation' 96.637
'no' 25.402.139
'no-validation' 25.766
'ny' 174.696
'ny-validation' 162
'pa' 363.399
'pa-validation' 346
'pl' 126.164.277
'pl-validation' 125.997
'ps' 335,452
'ps-validation' 318
'pt' 169.239.084
'pt-validation' 169.417
'ro' 45.738.857
'ro-validation' 45.512
'ru' 755.585.265
'ru-Latn' 745.491
'ru-Latn-validation' 753
'ru-validation' 756.418
'sd' 743.057
'sd-validation' 774
'si' 534.759
'si-validation' 509
'sk' 17.729.698
'sk-validation' 17.865
'sl' 8.499.456
'sl-validation' 8.504
'sm' 98.467
'sm-validation' 108
'sn' 326.392
'sn-validation' 306
'so' 893.012
'so-validation' 888
'sq' 4.113.147
'sq-validation' 4.086
'sr' 3.398.483
'sr-validation' 3.443
'st' 66.837
'st-validation' 88
'su' 280.719
'su-validation' 269
'sv' 48.570.979
'sv-validation' 48.633
'sw' 985.654
'sw-validation' 994
'ta' 3.514.561
'ta-validation' 3.510
'te' 1.188.243
'te-validation' 1,211
'tg' 1.280.757
'tg-validation' 1.259
'th' 15.463.131
'th-validation' 15.344
'tr' 87.595.290
'tr-validation' 87.596
'uk' 38.556.465
'uk-validation' 38.550
'und' 1.866.266.695
'und-validation' 1.867.450
'ur' 1.950.124
'ur-validation' 1.885
'uz' 796.416
'uz-validation' 847
'vi' 78.587.159
'vi-validation' 78.611
'xh' 69.048
'xh-validation' 62
'yi' 143.708
'yi-validation' 161
'yo' 46.214
'yo-validation' 42
'zh' 54.542.308
'zh-Latn' 373.664
'zh-Latn-validation' 387
'zh-validation' 54.656
'zu' 555,458
'zu-validation' 548