- বর্ণনা :
40+ উইকিপিডিয়া ভাষার সংস্করণের জন্য ক্লিন-আপ টেক্সট পৃষ্ঠাগুলির সাথে সম্পর্কিত। ডেটাসেটের প্রতিটি ভাষাতে ট্রেন/ডেভ/টেস্ট স্প্লিট রয়েছে। দ্ব্যর্থতাহীন পৃষ্ঠাগুলি, পুনঃনির্দেশিত পৃষ্ঠাগুলি, মুছে ফেলা পৃষ্ঠাগুলি এবং অ-সত্তা পৃষ্ঠাগুলি সরাতে পৃষ্ঠা ফিল্টারিং দ্বারা ডেটাসেট পরিষ্কার করা হয়৷ প্রতিটি উদাহরণে সত্তার উইকিডাটা আইডি এবং পৃষ্ঠা প্রক্রিয়াকরণের পরে সম্পূর্ণ উইকিপিডিয়া নিবন্ধ রয়েছে যা অ-বিষয়বস্তু বিভাগ এবং কাঠামোগত বস্তুগুলিকে সরিয়ে দেয়। এই কর্পাসে প্রশিক্ষিত ভাষার মডেলগুলি - 41টি একভাষিক মডেল এবং 2টি বহুভাষিক মডেল সহ - https://tfhub.dev/google/collections/wiki40b-lm/1 এ পাওয়া যাবে
সোর্স কোড :
tfds.text.Wiki40b
সংস্করণ :
-
1.3.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown size
বৈশিষ্ট্য গঠন :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
সংস্করণ_আইডি | পাঠ্য | স্ট্রিং | ||
উইকিডাটা_আইডি | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (ডিফল্ট কনফিগারেশন)
কনফিগারের বিবরণ : en এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
9.91 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ar
কনফিগারেশনের বিবরণ : ar এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
833.20 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/zh-cn
কনফিগারেশনের বিবরণ : zh-cn-এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
985.53 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/zh-tw
কনফিগারেশনের বিবরণ : zh-tw-এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
986.45 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/nl
কনফিগার বিবরণ : nl এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
961.82 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/fr
কনফিগারেশনের বিবরণ : fr এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
3.37 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/de
কনফিগারেশনের বিবরণ : ডি এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
4.78 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৮৬,৫৯৪ |
'train' | 1,554,910 |
'validation' | ৮৬,০৬৮ |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/it
কনফিগারেশনের বিবরণ : এটির জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
2.00 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ja
কনফিগারেশনের বিবরণ : ja এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
2.19 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ko
কনফিগারেশনের বিবরণ : ko এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
453.98 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/pl
কনফিগারেশনের বিবরণ : pl এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
1.03 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/pt
কনফিগারেশনের বিবরণ : pt এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
1.08 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ru
কনফিগারেশনের বিবরণ : ru এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
4.13 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/es
কনফিগারেশনের বিবরণ : es-এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
2.70 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 48,764 |
'train' | ৮৭২,৫৪১ |
'validation' | 48,592 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/th
কনফিগারেশনের বিবরণ : তম জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
326.29 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | ৩,০৯৩ |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/tr
কনফিগারেশনের বিবরণ : tr এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
308.87 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/bg
কনফিগারেশনের বিবরণ : বিজি-র জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
433.20 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ca
কনফিগারেশনের বিবরণ : CA এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
753.00 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/cs
কনফিগারেশনের বিবরণ : সিএসের জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
631.84 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | ১৩,০৯৬ |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/da
কনফিগারেশনের বিবরণ : Da এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
240.51 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/el
কনফিগারেশনের বিবরণ : el এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
524.77 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 5,261 |
'train' | ৯৩,৫৯৬ |
'validation' | ৫,১৩০ |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/et
কনফিগারেশনের বিবরণ : উইকি৪০বি ডেটাসেট ইত্যাদি।
ডেটাসেটের আকার :
184.07 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/fa
কনফিগারেশনের বিবরণ : fa এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
482.55 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/fi
কনফিগারেশনের বিবরণ : ফাই এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
534.13 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/he
কনফিগার বিবরণ : তার জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
869.51 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৯,৩৪৪ |
'train' | 165,359 |
'validation' | 9,231 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/hi
কনফিগারেশনের বিবরণ : হাই এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
277.56 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,643 |
'train' | ৪৫,৭৩৭ |
'validation' | 2,596 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/hr
কনফিগার বিবরণ : ঘন্টার জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
235.58 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৫,৭২৪ |
'train' | 103,857 |
'validation' | ৫,৭৯২ |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/hu
কনফিগারেশনের বিবরণ : hu এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
634.25 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/id
কনফিগারেশনের বিবরণ : আইডির জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
334.06 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৮,৫৯৮ |
'train' | 156,255 |
'validation' | ৮,৭১৪ |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/lt
কনফিগারেশনের বিবরণ : lt এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
140.46 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 4,683 |
'train' | ৮৪,৮৫৪ |
'validation' | 4,754 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/lv
কনফিগারেশনের বিবরণ : lv-এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
80.07 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,932 |
'train' | ৩৩,০৬৪ |
'validation' | 1,857 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ms
কনফিগারেশনের বিবরণ : ms এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
142.49 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/no
কনফিগারেশনের বিবরণ : Wiki40B ডেটাসেট নম্বরের জন্য।
ডেটাসেটের আকার :
382.03 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/ro
কনফিগারেশনের বিবরণ : ro এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
319.68 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/sk
কনফিগারেশনের বিবরণ : sk-এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
170.20 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/sl
কনফিগারেশনের বিবরণ : SL এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
157.38 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৩,৩৪১ |
'train' | 60,927 |
'validation' | 3,287 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/sr
কনফিগারেশনের বিবরণ : sr এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
582.20 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/sv
কনফিগারেশনের বিবরণ : sv এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
613.62 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/tl
কনফিগারেশনের বিবরণ : tl এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
29.04 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/uk
কনফিগারেশনের বিবরণ : uk এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
1.67 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- উদাহরণ ( tfds.as_dataframe ):
wiki40b/vi
কনফিগারেশনের বিবরণ : vi এর জন্য Wiki40B ডেটাসেট।
ডেটাসেটের আকার :
497.70 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | ৮,১৯৫ |
- উদাহরণ ( tfds.as_dataframe ):