c4

  • বর্ণনা :

কমন ক্রলের ওয়েব ক্রল কর্পাসের একটি বিশাল, পরিষ্কার সংস্করণ।

সাধারণ ক্রল ডেটাসেটের উপর ভিত্তি করে: https://commoncrawl.org

এই ডেটাসেট তৈরি করতে, অনুগ্রহ করে t5 থেকে নির্দেশাবলী অনুসরণ করুন

ডেটাসেট পরিষ্কার করার ওভারহেডের কারণে, ক্লাউড ডেটাফ্লো-এর মতো বিতরণ করা পরিষেবা দিয়ে এটি প্রস্তুত করার পরামর্শ দেওয়া হচ্ছে। আরও তথ্য https://www.tensorflow.org/datasets/beam_datasets

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://github.com/google-research/text-to-text-transfer-transformer#datasets

  • সোর্স কোড : tfds.text.C4

  • সংস্করণ :

    • 2.2.0 : কোনো রিলিজ নোট নেই।
    • 2.2.1 : কোনো রিলিজ নোট নেই।
    • 2.3.0 : কোনো রিলিজ নোট নেই।
    • 2.3.1 : কোন রিলিজ নোট নেই।
    • 3.1.0 (ডিফল্ট): কোনো রিলিজ নোট নেই।
  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    আপনি একটি C4 কনফিগার ব্যবহার করছেন যার জন্য কিছু ফাইল ম্যানুয়ালি ডাউনলোড করা প্রয়োজন। c4/webtextlike এর জন্য, https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ থেকে OpenWebText.zip ডাউনলোড করুন

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'content-length': Text(shape=(), dtype=string),
    'content-type': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'timestamp': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
বিষয়বস্তুর দৈর্ঘ্য পাঠ্য স্ট্রিং
বিষয়বস্তুর প্রকার পাঠ্য স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
টাইমস্ট্যাম্প পাঠ্য স্ট্রিং
url পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{2019t5,
  author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {arXiv e-prints},
  year = {2019},
  archivePrefix = {arXiv},
  eprint = {1910.10683},
}

c4/en (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : ইংরেজি C4 ডেটাসেট।

  • ডাউনলোড সাইজ : 201.98 KiB

  • ডেটাসেটের আকার : 806.87 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 364,613,570
'validation' 364,724

c4/en.noclean

  • কনফিগারেশনের বিবরণ : সমস্ত পরিষ্কার করা অক্ষম করে (অন্যদৃষ্টি, খারাপ শব্দের উপর ভিত্তি করে অপসারণ ইত্যাদি)

  • ডাউনলোড সাইজ : 177.11 KiB

  • ডেটাসেটের আকার : 6.21 TiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,063,805,169
'validation' 1,065,028

c4/realnewslike

  • কনফিগারেশনের বিবরণ : ডিফল্ট কনফিগারেশন থেকে ফিল্টারগুলি শুধুমাত্র 'RealNews' ডেটাসেটে ব্যবহৃত ডোমেন থেকে সামগ্রী অন্তর্ভুক্ত করতে (Zellers et al., 2019)।

  • ডাউনলোড সাইজ : 340.29 KiB

  • ডেটাসেটের আকার : 36.91 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 13,804,817
'validation' 13,855

c4/ওয়েবটেক্সট লাইক

  • কনফিগারেশনের বিবরণ : শুধুমাত্র OpenWebText ( https://github.com/jcpeterson/openwebtext ) এ URL থেকে সামগ্রী অন্তর্ভুক্ত করতে ডিফল্ট কনফিগার থেকে ফিল্টার।

  • ডাউনলোড আকার : 2.04 MiB

  • ডেটাসেটের আকার : 17.93 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৪,৪৮৮,৬৯৪
'validation' ৪,৪৮৬

c4/বহুভাষিক

  • কনফিগার বিবরণ : বহুভাষিক C4 (mC4) এর 101টি ভাষা রয়েছে এবং এটি 86টি সাধারণ ক্রল ডাম্প থেকে তৈরি করা হয়েছে।

  • ডাউনলোড আকার : 13.60 MiB

  • ডেটাসেটের আকার : 38.49 TiB

  • বিভাজন :

বিভক্ত উদাহরণ
'af' 1,770,414
'af-validation' 1,757
'am' 291,570
'am-validation' 289
'ar' ৯২,৪৫৫,৩৭৮
'ar-validation' ৯২,৩৭৪
'az' 7,179,300
'az-validation' 7,206
'be' 2,156,584
'be-validation' 2,103
'bg' 32,511,350
'bg-Latn' 44,290
'bg-Latn-validation' 41
'bg-validation' 32,690
'bn' 15,183,514
'bn-validation' 15,130
'ca' 19,438,615
'ca-validation' 19,562
'ceb' 415,208
'ceb-validation' 430
'co' 217,257
'co-validation' 211
'cs' ৮২,২৬২,০৭৮
'cs-validation' ৮২,৫৯৪
'cy' 1,066,595
'cy-validation' 1,016
'da' 36,884,558
'da-validation' 37,071
'de' 545,956,997
'de-validation' 547,566
'el' ৬৮,৫৭৭,৩৭৬
'el-Latn' 162,004
'el-Latn-validation' 171
'el-validation' 69,435
'en' ৩,৯২৮,৭৩৩,৩৭৯
'en-validation' ৩,৯৩৩,৩৭৯
'eo' 560,151
'eo-validation' 546
'es' 591,272,119
'es-validation' 592,258
'et' 10,401,882
'et-validation' 10,276
'eu' 2,077,113
'eu-validation' 2,077
'fa' 81,252,911
'fa-validation' ৮১,০৩৪
'fi' 36,807,562
'fi-validation' 36,512
'fil' ২,৩৩১,২০৯
'fil-validation' ২,৩৮১
'fr' 454,229,019
'fr-validation' 453,124
'fy' 502,656
'fy-validation' 478
'ga' 611,457
'ga-validation' 631
'gd' 201,237
'gd-validation' 196
'gl' 3,762,255
'gl-validation' 3,811
'gu' 1,292,191
'gu-validation' 1,323
'ha' 363,002
'ha-validation' 368
'haw' 103,043
'haw-validation' 99
'hi' 26,695,748
'hi-Latn' 251,231
'hi-Latn-validation' 261
'hi-validation' 26,721
'hmn' 157,016
'hmn-validation' 175
'ht' 232,354
'ht-validation' 246
'hu' 56,645,732
'hu-validation' 56,905
'hy' ৩,৮৭৩,০২৯
'hy-validation' 3,804
'id' 19,423,746
'id-validation' 19,601
'ig' 110,582
'ig-validation' 103
'is' 3,139,312
'is-validation' 3,210
'it' 267,686,115
'it-validation' 267,322
'iw' 17,607,812
'iw-validation' 17,570
'ja' ৮৫,২২৬,০৩৯
'ja-Latn' 235,885
'ja-Latn-validation' 221
'ja-validation' ৮৫,৬১৮
'jv' 218,969
'jv-validation' 253
'ka' 3,726,808
'ka-validation' 3,752
'kk' 3,421,165
'kk-validation' ৩,৪৪৩
'km' 1,384,128
'km-validation' 1,359
'kn' 1,916,445
'kn-validation' 1,895
'ko' 24,035,493
'ko-validation' 24,240
'ku' 399,027
'ku-validation' 417
'ky' 1,198,504
'ky-validation' 1,188
'la' 1,632,557
'la-validation' 1,630
'lb' 850,921
'lb-validation' 856
'lo' 302,612
'lo-validation' 290
'lt' 18,234,466
'lt-validation' 18,428
'lv' ৯,৮৮২,৩৭৬
'lv-validation' ১০,০৩৪
'mg' 263,321
'mg-validation' 254
'mi' 148,146
'mi-validation' 156
'mk' 3,599,707
'mk-validation' ৩,৭১৩
'ml' 3,604,562
'ml-validation' 3,514
'mn' 2,947,312
'mn-validation' 3,021
'mr' ৪,৫৫৫,৫৯৯
'mr-validation' 4,602
'ms' ৪,৬৮৮,০৩৬
'ms-validation' 4,719
'mt' 1,109,191
'mt-validation' 1,207
'my' 1,248,242
'my-validation' 1,314
'ne' 4,679,412
'ne-validation' 4,738
'nl' 136,379,427
'nl-validation' 137,142
'no' 30,644,684
'no-validation' 31,134
'ny' 114,952
'ny-validation' 121
'pa' 729,394
'pa-validation' 719
'pl' 178,690,573
'pl-validation' 178,481
'ps' 497,321
'ps-validation' 468
'pt' 246,401,954
'pt-validation' 246,120
'ro' ৬৬,৪৯৯,৮৯৯
'ro-validation' ৬৬,৩৮৪
'ru' 1,014,064,014
'ru-Latn' 582,022
'ru-Latn-validation' 616
'ru-validation' 1,014,169
'sd' 210,835
'sd-validation' 206
'si' 846,125
'si-validation' 846
'sk' 26,721,250
'sk-validation' 26,882
'sl' 12,381,886
'sl-validation' 12,381
'sm' 102,125
'sm-validation' 108
'sn' 124,984
'sn-validation' 116
'so' 1,168,106
'so-validation' 1,212
'sq' 7,023,573
'sq-validation' 7,057
'sr' 4,775,217
'sr-validation' 4,804
'st' 99,970
'st-validation' 103
'su' 153,302
'su-validation' 151
'sv' 63,308,307
'sv-validation' ৬৩,৪৮৮
'sw' 1,279,408
'sw-validation' 1,296
'ta' ৫,৭৬৯,৫৩৩
'ta-validation' 5,770
'te' 2,034,828
'te-validation' 2,010
'tg' 1,563,304
'tg-validation' 1,526
'th' 28,021,205
'th-validation' 28,062
'tr' 132,662,955
'tr-validation' 133,062
'uk' 56,159,593
'uk-validation' 56,321
'und' 3,650,492,732
'und-validation' ৩,৬৫৬,৫৮৮
'ur' ৩,৪৩২,৪৭৮
'ur-validation' ৩,৪৪৩
'uz' 1,183,603
'uz-validation' 1,259
'vi' 132,667,573
'vi-validation' 132,915
'xh' 122,232
'xh-validation' 117
'yi' 173,510
'yi-validation' 166
'yo' ৮৬,৬৮৬
'yo-validation' 82
'zh' 214,856,503
'zh-Latn' 471,314
'zh-Latn-validation' 492
'zh-validation' 214,733
'zu' 261,239
'zu-validation' 253