- विवरण :
पृष्ठों के 40+ विकिपीडिया भाषाओं के संस्करणों के लिए क्लीन-अप टेक्स्ट संस्थाओं से मेल खाता है। डेटासेट में प्रति भाषा ट्रेन/डेवलप/टेस्ट विभाजन होता है। असंबद्धता वाले पेजों, रीडायरेक्ट पेजों, हटाए गए पेजों और गैर-इकाई वाले पेजों को हटाने के लिए पेज फ़िल्टरिंग द्वारा डेटासेट को साफ़ किया जाता है। प्रत्येक उदाहरण में इकाई की विकिडेटा आईडी और पृष्ठ प्रसंस्करण के बाद पूरा विकिपीडिया लेख शामिल है जो गैर-सामग्री अनुभागों और संरचित वस्तुओं को हटा देता है। इस कॉर्पस पर प्रशिक्षित भाषा मॉडल - जिसमें 41 मोनोलिंगुअल मॉडल और 2 बहुभाषी मॉडल शामिल हैं - https://tfhub.dev/google/collections/wiki40b-lm/1 पर पाए जा सकते हैं।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले कागजात पर अन्वेषण करें
मुखपृष्ठ : https://research.google/pubs/pub49029/
स्रोत कोड :
tfds.text.Wiki40bसंस्करण :
-
1.3.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown sizeफ़ीचर संरचना :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
|---|---|---|---|---|
| फीचर्सडिक्ट | ||||
| मूलपाठ | मूलपाठ | डोरी | ||
| संस्करण_आईडी | मूलपाठ | डोरी | ||
| wikidata_id | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : en के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
9.91 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ar
कॉन्फ़िग विवरण : ar के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
833.20 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/zh-cn
कॉन्फ़िगरेशन विवरण : zh-cn के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
985.53 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/zh-tw
कॉन्फ़िगरेशन विवरण : zh-tw के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
986.45 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/nl
कॉन्फ़िगरेशन विवरण : nl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
961.82 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/fr
कॉन्फ़िगरेशन विवरण : fr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
3.37 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/डी
कॉन्फ़िगरेशन विवरण : De के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
4.78 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/it
कॉन्फ़िगरेशन विवरण : इसके लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.00 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ja
कॉन्फ़िगरेशन विवरण : ja के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.19 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ko
कॉन्फ़िगरेशन विवरण : ko के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
453.98 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/पीएल
कॉन्फ़िगरेशन विवरण : pl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.03 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/पीटी
कॉन्फ़िगरेशन विवरण : पीटी के लिए विकि40बी डेटासेट।
डेटासेट का आकार :
1.08 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ru
कॉन्फ़िग विवरण : ru के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
4.13 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/es
कॉन्फ़िगरेशन विवरण : es के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.70 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/थ
कॉन्फ़िगरेशन विवरण : वें के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
326.29 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/टीआर
कॉन्फ़िगरेशन विवरण : tr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
308.87 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/बीजी
कॉन्फ़िगरेशन विवरण : बीजी के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
433.20 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/सीए
कॉन्फ़िगरेशन विवरण : सीए के लिए विकि40बी डेटासेट।
डेटासेट का आकार :
753.00 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/सीएस
कॉन्फ़िगरेशन विवरण : सीएस के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
631.84 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/da
कॉन्फ़िगरेशन विवरण : da के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
240.51 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/el
कॉन्फ़िगरेशन विवरण : एल के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
524.77 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/et
कॉन्फ़िगरेशन विवरण : एट के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
184.07 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एफए
कॉन्फ़िगरेशन विवरण : पिता के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
482.55 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/फाई
कॉन्फ़िगरेशन विवरण : Fi के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
534.13 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/he
कॉन्फ़िगरेशन विवरण : उसके लिए Wiki40B डेटासेट।
डेटासेट का आकार :
869.51 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/हाय
कॉन्फ़िगरेशन विवरण : हाय के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
277.56 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/घंटा
कॉन्फ़िगरेशन विवरण : घंटे के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
235.58 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/hu
कॉन्फ़िगरेशन विवरण : hu के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
634.25 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/आईडी
कॉन्फ़िगरेशन विवरण : आईडी के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
334.06 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एलटी
कॉन्फ़िगरेशन विवरण : लेफ्टिनेंट के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
140.46 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एलवी
कॉन्फ़िगरेशन विवरण : lv के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
80.07 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एमएस
कॉन्फ़िगरेशन विवरण : एमएस के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
142.49 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/सं
कॉन्फ़िगरेशन विवरण : संख्या के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
382.03 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/आरओ
कॉन्फ़िगरेशन विवरण : ro के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
319.68 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/sk
कॉन्फ़िगरेशन विवरण : एसके के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
170.20 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एसएल
कॉन्फ़िगरेशन विवरण : sl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
157.38 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एसआर
कॉन्फ़िगरेशन विवरण : सीनियर के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
582.20 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एसवी
कॉन्फ़िगरेशन विवरण : sv के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
613.62 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/टीएल
कॉन्फ़िगरेशन विवरण : टीएल के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
29.04 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/यूके
कॉन्फ़िगरेशन विवरण : यूके के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.67 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/vi
कॉन्फ़िगरेशन विवरण : vi के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
497.70 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- उदाहरण ( tfds.as_dataframe ):