- Mô tả:
Một phiên bản khổng lồ, được làm sạch của kho dữ liệu thu thập thông tin web của Common Crawl.
Dựa trên thông thường thu thập thông tin dữ liệu: https://commoncrawl.org
Để tạo ra bộ dữ liệu này, hãy làm theo các hướng dẫn từ t5 .
Do toàn bộ chi phí dọn dẹp tập dữ liệu, bạn nên chuẩn bị nó bằng một dịch vụ phân tán như Cloud Dataflow. Xem thêm thông tin tại https://www.tensorflow.org/datasets/beam_datasets
Trang chủ: https://github.com/google-research/text-to-text-transfer-transformer#datasets
Source code:
tfds.text.C4
phiên bản:
-
2.2.0
: Không có ghi chú phát hành. -
2.2.1
: Không có ghi chú phát hành. -
2.3.0
: Không có ghi chú phát hành. -
2.3.1
: Không có ghi chú phát hành. -
3.0.1
(mặc định): Không có ghi chú phát hành.
-
Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Bạn đang sử dụng cấu hình C4 yêu cầu một số tệp được tải xuống theo cách thủ công. Đối vớic4/webtextlike
, tải OpenWebText.zip từ https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQTự động lưu trữ ( tài liệu ): Không
Các tính năng:
FeaturesDict({
'content-length': Text(shape=(), dtype=tf.string),
'content-type': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'timestamp': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn:
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
c4 / en (cấu hình mặc định)
Config Mô tả: Tiếng Anh C4 tập dữ liệu.
Dung lượng tải về:
12.28 MiB
Kích thước tập dữ liệu:
806.92 GiB
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 364.868.901 |
'validation' | 364.608 |
- Ví dụ ( tfds.as_dataframe ):
c4 / en.noclean
Config mô tả: Vô hiệu hóa tất cả làm sạch (pc, loại bỏ dựa trên các từ xấu, vv)
Dung lượng tải về:
12.25 MiB
Dataset kích thước:
6.21 TiB
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1.063.805.324 |
'validation' | 1.065.029 |
- Ví dụ ( tfds.as_dataframe ):
c4 / realnewslike
Config Mô tả: Bộ lọc từ các cấu hình mặc định để chỉ bao gồm nội dung từ các lĩnh vực được sử dụng trong các tập dữ liệu 'RealNews' (Zellers et al, 2019.).
Dung lượng tải về:
12.41 MiB
Kích thước tập dữ liệu:
36.89 GiB
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 13.799.838 |
'validation' | 13.863 |
- Ví dụ ( tfds.as_dataframe ):
c4 / webtextlike
Config Mô tả: Bộ lọc từ các cấu hình mặc định để chỉ bao gồm nội dung từ các URL trong OpenWebText ( https://github.com/jcpeterson/openwebtext ).
Dung lượng tải về:
14.12 MiB
Kích thước tập dữ liệu:
18.00 GiB
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 4.500.788 |
'validation' | 4.493 |
- Ví dụ ( tfds.as_dataframe ):
c4 / đa ngôn ngữ
Config mô tả: Đa ngôn ngữ C4 (MC4) có 101 ngôn ngữ và được tạo ra từ 71 Common Crawl bãi.
Dung lượng tải về:
22.74 MiB
Dataset kích thước:
26.76 TiB
tách:
Tách ra | Các ví dụ |
---|---|
'af' | 2.152.243 |
'af-validation' | 2.118 |
'am' | 162.870 |
'am-validation' | 155 |
'ar' | 53.256.040 |
'ar-validation' | 52,978 |
'az' | 5.285.720 |
'az-validation' | 5.239 |
'be' | 1.742.030 |
'be-validation' | 1.712 |
'bg' | 23.409.799 |
'bg-Latn' | 162.461 |
'bg-Latn-validation' | 144 |
'bg-validation' | 23.503 |
'bn' | 7.444.098 |
'bn-validation' | 7.415 |
'ca' | 14.492.899 |
'ca-validation' | 14.489 |
'ceb' | 351.894 |
'ceb-validation' | 367 |
'co' | 494,913 |
'co-validation' | 565 |
'cs' | 60.149.680 |
'cs-validation' | 60.462 |
'cy' | 4.131.915 |
'cy-validation' | 4.103 |
'da' | 28.777.331 |
'da-validation' | 28.945 |
'de' | 397.006.993 |
'de-validation' | 398.583 |
'el' | 41,753,736 |
'el-Latn' | 449,943 |
'el-Latn-validation' | 468 |
'el-validation' | 42.358 |
'en' | 3.079.081.989 |
'en-validation' | 3.083.850 |
'eo' | 500.048 |
'eo-validation' | 496 |
'es' | 416.057.992 |
'es-validation' | 416,256 |
'et' | 6.941.360 |
'et-validation' | 6.848 |
'eu' | 1.555.887 |
'eu-validation' | 1.580 |
'fa' | 53.927.287 |
'fa-validation' | 53.685 |
'fi' | 26.842.650 |
'fi-validation' | 26.710 |
'fil' | 2.102.197 |
'fil-validation' | 2.158 |
'fr' | 332.674.575 |
'fr-validation' | 331.328 |
'fy' | 1.104.359 |
'fy-validation' | 1,094 |
'ga' | 465.670 |
'ga-validation' | 490 |
'gd' | 322.404 |
'gd-validation' | 338 |
'gl' | 4.549.465 |
'gl-validation' | 4,631 |
'gu' | 631.600 |
'gu-validation' | 651 |
'ha' | 247.479 |
'ha-validation' | 258 |
'haw' | 84.312 |
'haw-validation' | 86 |
'hi' | 18.507.273 |
'hi-Latn' | 626.154 |
'hi-Latn-validation' | 638 |
'hi-validation' | 18.392 |
'hmn' | 295.549 |
'hmn-validation' | 312 |
'ht' | 269.174 |
'ht-validation' | 281 |
'hu' | 36.819.508 |
'hu-validation' | 36,756 |
'hy' | 2.401.949 |
'hy-validation' | 2.410 |
'id' | 69.625.551 |
'id-validation' | 69,739 |
'ig' | 92,909 |
'ig-validation' | 87 |
'is' | 2.069.293 |
'is-validation' | 2.065 |
'it' | 186.404.508 |
'it-validation' | 186.030 |
'iw' | 12,334,609 |
'iw-validation' | 12.207 |
'ja' | 87.337.884 |
'ja-Latn' | 533.516 |
'ja-Latn-validation' | 506 |
'ja-validation' | 87.420 |
'jv' | 581.528 |
'jv-validation' | 609 |
'ka' | 2.295.551 |
'ka-validation' | 2.279 |
'kk' | 2.392.401 |
'kk-validation' | 2.400 |
'km' | 756.612 |
'km-validation' | 745 |
'kn' | 1.056.849 |
'kn-validation' | 1,039 |
'ko' | 15.602.947 |
'ko-validation' | 15,771 |
'ku' | 298.389 |
'ku-validation' | 298 |
'ky' | 995.539 |
'ky-validation' | 976 |
'la' | 1.674.463 |
'la-validation' | 1.654 |
'lb' | 2.740.336 |
'lb-validation' | 2.692 |
'lo' | 141.776 |
'lo-validation' | 145 |
'lt' | 11.274.295 |
'lt-validation' | 11.245 |
'lv' | 6.414.223 |
'lv-validation' | 6,598 |
'mg' | 345.040 |
'mg-validation' | 367 |
'mi' | 101.169 |
'mi-validation' | 106 |
'mk' | 2.058.417 |
'mk-validation' | 2.054 |
'ml' | 2.044.981 |
'ml-validation' | 2,002 |
'mn' | 2.054.674 |
'mn-validation' | 2.090 |
'mr' | 7.774.331 |
'mr-validation' | 7.928 |
'ms' | 13.180.647 |
'ms-validation' | 13.391 |
'mt' | 2,261,303 |
'mt-validation' | 2.322 |
'my' | 813.530 |
'my-validation' | 858 |
'ne' | 2.942.785 |
'ne-validation' | 2.951 |
'nl' | 96.210.458 |
'nl-validation' | 96.637 |
'no' | 25.402.139 |
'no-validation' | 25.766 |
'ny' | 174.696 |
'ny-validation' | 162 |
'pa' | 363.399 |
'pa-validation' | 346 |
'pl' | 126.164.277 |
'pl-validation' | 125.997 |
'ps' | 335,452 |
'ps-validation' | 318 |
'pt' | 169.239.084 |
'pt-validation' | 169.417 |
'ro' | 45.738.857 |
'ro-validation' | 45.512 |
'ru' | 755.585.265 |
'ru-Latn' | 745.491 |
'ru-Latn-validation' | 753 |
'ru-validation' | 756.418 |
'sd' | 743.057 |
'sd-validation' | 774 |
'si' | 534.759 |
'si-validation' | 509 |
'sk' | 17.729.698 |
'sk-validation' | 17.865 |
'sl' | 8.499.456 |
'sl-validation' | 8.504 |
'sm' | 98.467 |
'sm-validation' | 108 |
'sn' | 326.392 |
'sn-validation' | 306 |
'so' | 893.012 |
'so-validation' | 888 |
'sq' | 4.113.147 |
'sq-validation' | 4.086 |
'sr' | 3.398.483 |
'sr-validation' | 3.443 |
'st' | 66.837 |
'st-validation' | 88 |
'su' | 280.719 |
'su-validation' | 269 |
'sv' | 48.570.979 |
'sv-validation' | 48.633 |
'sw' | 985.654 |
'sw-validation' | 994 |
'ta' | 3.514.561 |
'ta-validation' | 3.510 |
'te' | 1.188.243 |
'te-validation' | 1,211 |
'tg' | 1.280.757 |
'tg-validation' | 1.259 |
'th' | 15.463.131 |
'th-validation' | 15.344 |
'tr' | 87.595.290 |
'tr-validation' | 87.596 |
'uk' | 38.556.465 |
'uk-validation' | 38.550 |
'und' | 1.866.266.695 |
'und-validation' | 1.867.450 |
'ur' | 1.950.124 |
'ur-validation' | 1.885 |
'uz' | 796.416 |
'uz-validation' | 847 |
'vi' | 78.587.159 |
'vi-validation' | 78.611 |
'xh' | 69.048 |
'xh-validation' | 62 |
'yi' | 143.708 |
'yi-validation' | 161 |
'yo' | 46.214 |
'yo-validation' | 42 |
'zh' | 54.542.308 |
'zh-Latn' | 373.664 |
'zh-Latn-validation' | 387 |
'zh-validation' | 54.656 |
'zu' | 555,458 |
'zu-validation' | 548 |
- Ví dụ ( tfds.as_dataframe ):