- বর্ণনা :
কমন ক্রলের ওয়েব ক্রল কর্পাসের একটি বিশাল, পরিষ্কার সংস্করণ।
সাধারণ ক্রল ডেটাসেটের উপর ভিত্তি করে: https://commoncrawl.org
এই ডেটাসেট তৈরি করতে, অনুগ্রহ করে t5 থেকে নির্দেশাবলী অনুসরণ করুন ।
ডেটাসেট পরিষ্কার করার ওভারহেডের কারণে, ক্লাউড ডেটাফ্লো-এর মতো বিতরণ করা পরিষেবা দিয়ে এটি প্রস্তুত করার পরামর্শ দেওয়া হচ্ছে। আরও তথ্য https://www.tensorflow.org/datasets/beam_datasets এ
হোমপেজ : https://github.com/google-research/text-to-text-transfer-transformer#datasets
সোর্স কোড :
tfds.text.C4
সংস্করণ :
-
2.2.0
: কোনো রিলিজ নোট নেই। -
2.2.1
: কোনো রিলিজ নোট নেই। -
2.3.0
: কোনো রিলিজ নোট নেই। -
2.3.1
: কোন রিলিজ নোট নেই। -
3.1.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
আপনি একটি C4 কনফিগার ব্যবহার করছেন যার জন্য কিছু ফাইল ম্যানুয়ালি ডাউনলোড করা প্রয়োজন।c4/webtextlike
এর জন্য, https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ থেকে OpenWebText.zip ডাউনলোড করুনস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'content-length': Text(shape=(), dtype=string),
'content-type': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বিষয়বস্তুর দৈর্ঘ্য | পাঠ্য | স্ট্রিং | ||
বিষয়বস্তুর প্রকার | পাঠ্য | স্ট্রিং | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
টাইমস্ট্যাম্প | পাঠ্য | স্ট্রিং | ||
url | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
c4/en (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : ইংরেজি C4 ডেটাসেট।
ডাউনলোড সাইজ :
201.98 KiB
ডেটাসেটের আকার :
806.87 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 364,613,570 |
'validation' | 364,724 |
- উদাহরণ ( tfds.as_dataframe ):
c4/en.noclean
কনফিগারেশনের বিবরণ : সমস্ত পরিষ্কার করা অক্ষম করে (অন্যদৃষ্টি, খারাপ শব্দের উপর ভিত্তি করে অপসারণ ইত্যাদি)
ডাউনলোড সাইজ :
177.11 KiB
ডেটাসেটের আকার :
6.21 TiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1,063,805,169 |
'validation' | 1,065,028 |
- উদাহরণ ( tfds.as_dataframe ):
c4/realnewslike
কনফিগারেশনের বিবরণ : ডিফল্ট কনফিগারেশন থেকে ফিল্টারগুলি শুধুমাত্র 'RealNews' ডেটাসেটে ব্যবহৃত ডোমেন থেকে সামগ্রী অন্তর্ভুক্ত করতে (Zellers et al., 2019)।
ডাউনলোড সাইজ :
340.29 KiB
ডেটাসেটের আকার :
36.91 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 13,804,817 |
'validation' | 13,855 |
- উদাহরণ ( tfds.as_dataframe ):
c4/ওয়েবটেক্সট লাইক
কনফিগারেশনের বিবরণ : শুধুমাত্র OpenWebText ( https://github.com/jcpeterson/openwebtext ) এ URL থেকে সামগ্রী অন্তর্ভুক্ত করতে ডিফল্ট কনফিগার থেকে ফিল্টার।
ডাউনলোড আকার :
2.04 MiB
ডেটাসেটের আকার :
17.93 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৪,৪৮৮,৬৯৪ |
'validation' | ৪,৪৮৬ |
- উদাহরণ ( tfds.as_dataframe ):
c4/বহুভাষিক
কনফিগার বিবরণ : বহুভাষিক C4 (mC4) এর 101টি ভাষা রয়েছে এবং এটি 86টি সাধারণ ক্রল ডাম্প থেকে তৈরি করা হয়েছে।
ডাউনলোড আকার :
13.60 MiB
ডেটাসেটের আকার :
38.49 TiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'af' | 1,770,414 |
'af-validation' | 1,757 |
'am' | 291,570 |
'am-validation' | 289 |
'ar' | ৯২,৪৫৫,৩৭৮ |
'ar-validation' | ৯২,৩৭৪ |
'az' | 7,179,300 |
'az-validation' | 7,206 |
'be' | 2,156,584 |
'be-validation' | 2,103 |
'bg' | 32,511,350 |
'bg-Latn' | 44,290 |
'bg-Latn-validation' | 41 |
'bg-validation' | 32,690 |
'bn' | 15,183,514 |
'bn-validation' | 15,130 |
'ca' | 19,438,615 |
'ca-validation' | 19,562 |
'ceb' | 415,208 |
'ceb-validation' | 430 |
'co' | 217,257 |
'co-validation' | 211 |
'cs' | ৮২,২৬২,০৭৮ |
'cs-validation' | ৮২,৫৯৪ |
'cy' | 1,066,595 |
'cy-validation' | 1,016 |
'da' | 36,884,558 |
'da-validation' | 37,071 |
'de' | 545,956,997 |
'de-validation' | 547,566 |
'el' | ৬৮,৫৭৭,৩৭৬ |
'el-Latn' | 162,004 |
'el-Latn-validation' | 171 |
'el-validation' | 69,435 |
'en' | ৩,৯২৮,৭৩৩,৩৭৯ |
'en-validation' | ৩,৯৩৩,৩৭৯ |
'eo' | 560,151 |
'eo-validation' | 546 |
'es' | 591,272,119 |
'es-validation' | 592,258 |
'et' | 10,401,882 |
'et-validation' | 10,276 |
'eu' | 2,077,113 |
'eu-validation' | 2,077 |
'fa' | 81,252,911 |
'fa-validation' | ৮১,০৩৪ |
'fi' | 36,807,562 |
'fi-validation' | 36,512 |
'fil' | ২,৩৩১,২০৯ |
'fil-validation' | ২,৩৮১ |
'fr' | 454,229,019 |
'fr-validation' | 453,124 |
'fy' | 502,656 |
'fy-validation' | 478 |
'ga' | 611,457 |
'ga-validation' | 631 |
'gd' | 201,237 |
'gd-validation' | 196 |
'gl' | 3,762,255 |
'gl-validation' | 3,811 |
'gu' | 1,292,191 |
'gu-validation' | 1,323 |
'ha' | 363,002 |
'ha-validation' | 368 |
'haw' | 103,043 |
'haw-validation' | 99 |
'hi' | 26,695,748 |
'hi-Latn' | 251,231 |
'hi-Latn-validation' | 261 |
'hi-validation' | 26,721 |
'hmn' | 157,016 |
'hmn-validation' | 175 |
'ht' | 232,354 |
'ht-validation' | 246 |
'hu' | 56,645,732 |
'hu-validation' | 56,905 |
'hy' | ৩,৮৭৩,০২৯ |
'hy-validation' | 3,804 |
'id' | 19,423,746 |
'id-validation' | 19,601 |
'ig' | 110,582 |
'ig-validation' | 103 |
'is' | 3,139,312 |
'is-validation' | 3,210 |
'it' | 267,686,115 |
'it-validation' | 267,322 |
'iw' | 17,607,812 |
'iw-validation' | 17,570 |
'ja' | ৮৫,২২৬,০৩৯ |
'ja-Latn' | 235,885 |
'ja-Latn-validation' | 221 |
'ja-validation' | ৮৫,৬১৮ |
'jv' | 218,969 |
'jv-validation' | 253 |
'ka' | 3,726,808 |
'ka-validation' | 3,752 |
'kk' | 3,421,165 |
'kk-validation' | ৩,৪৪৩ |
'km' | 1,384,128 |
'km-validation' | 1,359 |
'kn' | 1,916,445 |
'kn-validation' | 1,895 |
'ko' | 24,035,493 |
'ko-validation' | 24,240 |
'ku' | 399,027 |
'ku-validation' | 417 |
'ky' | 1,198,504 |
'ky-validation' | 1,188 |
'la' | 1,632,557 |
'la-validation' | 1,630 |
'lb' | 850,921 |
'lb-validation' | 856 |
'lo' | 302,612 |
'lo-validation' | 290 |
'lt' | 18,234,466 |
'lt-validation' | 18,428 |
'lv' | ৯,৮৮২,৩৭৬ |
'lv-validation' | ১০,০৩৪ |
'mg' | 263,321 |
'mg-validation' | 254 |
'mi' | 148,146 |
'mi-validation' | 156 |
'mk' | 3,599,707 |
'mk-validation' | ৩,৭১৩ |
'ml' | 3,604,562 |
'ml-validation' | 3,514 |
'mn' | 2,947,312 |
'mn-validation' | 3,021 |
'mr' | ৪,৫৫৫,৫৯৯ |
'mr-validation' | 4,602 |
'ms' | ৪,৬৮৮,০৩৬ |
'ms-validation' | 4,719 |
'mt' | 1,109,191 |
'mt-validation' | 1,207 |
'my' | 1,248,242 |
'my-validation' | 1,314 |
'ne' | 4,679,412 |
'ne-validation' | 4,738 |
'nl' | 136,379,427 |
'nl-validation' | 137,142 |
'no' | 30,644,684 |
'no-validation' | 31,134 |
'ny' | 114,952 |
'ny-validation' | 121 |
'pa' | 729,394 |
'pa-validation' | 719 |
'pl' | 178,690,573 |
'pl-validation' | 178,481 |
'ps' | 497,321 |
'ps-validation' | 468 |
'pt' | 246,401,954 |
'pt-validation' | 246,120 |
'ro' | ৬৬,৪৯৯,৮৯৯ |
'ro-validation' | ৬৬,৩৮৪ |
'ru' | 1,014,064,014 |
'ru-Latn' | 582,022 |
'ru-Latn-validation' | 616 |
'ru-validation' | 1,014,169 |
'sd' | 210,835 |
'sd-validation' | 206 |
'si' | 846,125 |
'si-validation' | 846 |
'sk' | 26,721,250 |
'sk-validation' | 26,882 |
'sl' | 12,381,886 |
'sl-validation' | 12,381 |
'sm' | 102,125 |
'sm-validation' | 108 |
'sn' | 124,984 |
'sn-validation' | 116 |
'so' | 1,168,106 |
'so-validation' | 1,212 |
'sq' | 7,023,573 |
'sq-validation' | 7,057 |
'sr' | 4,775,217 |
'sr-validation' | 4,804 |
'st' | 99,970 |
'st-validation' | 103 |
'su' | 153,302 |
'su-validation' | 151 |
'sv' | 63,308,307 |
'sv-validation' | ৬৩,৪৮৮ |
'sw' | 1,279,408 |
'sw-validation' | 1,296 |
'ta' | ৫,৭৬৯,৫৩৩ |
'ta-validation' | 5,770 |
'te' | 2,034,828 |
'te-validation' | 2,010 |
'tg' | 1,563,304 |
'tg-validation' | 1,526 |
'th' | 28,021,205 |
'th-validation' | 28,062 |
'tr' | 132,662,955 |
'tr-validation' | 133,062 |
'uk' | 56,159,593 |
'uk-validation' | 56,321 |
'und' | 3,650,492,732 |
'und-validation' | ৩,৬৫৬,৫৮৮ |
'ur' | ৩,৪৩২,৪৭৮ |
'ur-validation' | ৩,৪৪৩ |
'uz' | 1,183,603 |
'uz-validation' | 1,259 |
'vi' | 132,667,573 |
'vi-validation' | 132,915 |
'xh' | 122,232 |
'xh-validation' | 117 |
'yi' | 173,510 |
'yi-validation' | 166 |
'yo' | ৮৬,৬৮৬ |
'yo-validation' | 82 |
'zh' | 214,856,503 |
'zh-Latn' | 471,314 |
'zh-Latn-validation' | 492 |
'zh-validation' | 214,733 |
'zu' | 261,239 |
'zu-validation' | 253 |
- উদাহরণ ( tfds.as_dataframe ):