- תיאור :
טקסט ניקוי עבור 40+ שפות ויקיפדיה מהדורות של דפים תואמות לישויות. למערכי הנתונים יש פיצולי רכבת/פיתוח/בדיקות לכל שפה. מערך הנתונים מנוקה על ידי סינון דפים כדי להסיר דפי ביעור, דפי הפניה מחדש, דפים שנמחקו ודפים שאינם ישות. כל דוגמה מכילה את מזהה הוויקיפדיה של הישות, ואת המאמר המלא בוויקיפדיה לאחר עיבוד העמוד, שמסיר קטעים שאינם מכילים תוכן ואובייקטים מובנים. ניתן למצוא את מודלי השפה שהוכשרו בקורפוס זה - כולל 41 מודלים חד לשוניים ו-2 מודלים רב לשוניים - בכתובת https://hub.tensorflow.google.cn/google/collections/ wiki40b-lm/1.
דף הבית : https://research.google/pubs/pub49029/
קוד מקור :
tfds.text.Wiki40b
גרסאות :
-
1.3.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
מבנה תכונה :
FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'version_id': Text(shape=(), dtype=tf.string),
'wikidata_id': Text(shape=(), dtype=tf.string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
טֶקסט | טֶקסט | tf.string | ||
version_id | טֶקסט | tf.string | ||
wikidata_id | טֶקסט | tf.string |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ): חסר.
ציטוט :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (תצורת ברירת המחדל)
תיאור תצורה : מערך נתונים של Wiki40B עבור en.
גודל מערך נתונים :
9.91 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
wiki40b/ar
תיאור תצורה : מערך נתונים של Wiki40B עבור ar.
גודל ערכת נתונים:
833.20 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
wiki40b/zh-cn
תיאור תצורה : מערך נתונים של Wiki40B עבור zh-cn.
גודל ערכת נתונים:
985.53 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
wiki40b/zh-tw
תיאור תצורה : מערך נתונים של Wiki40B עבור zh-tw.
גודל ערכת נתונים:
986.45 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
wiki40b/nl
תיאור תצורה : מערך נתונים של Wiki40B עבור nl.
גודל ערכת נתונים:
961.82 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
wiki40b/fr
תיאור תצורה : מערך נתונים של Wiki40B עבור fr.
גודל מערך נתונים :
3.37 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
wiki40b/de
תיאור תצורה : מערך נתונים של Wiki40B עבור de.
גודל מערך נתונים :
4.78 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
wiki40b/it
תיאור תצורה : מערך נתונים של Wiki40B עבורו.
גודל מערך נתונים :
2.00 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
wiki40b/ja
תיאור תצורה : מערך נתונים של Wiki40B עבור ja.
גודל מערך נתונים :
2.19 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
wiki40b/ko
תיאור תצורה : מערך נתונים של Wiki40B עבור ko.
גודל ערכת נתונים:
453.98 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
wiki40b/pl
תיאור תצורה : מערך נתונים של Wiki40B עבור pl.
גודל מערך נתונים :
1.03 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
wiki40b/pt
תיאור תצורה : מערך נתונים של Wiki40B עבור pt.
גודל מערך נתונים :
1.08 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
wiki40b/ru
תיאור תצורה : מערך נתונים של Wiki40B עבור ru.
גודל מערך נתונים :
4.13 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
wiki40b/es
תיאור תצורה : מערך נתונים של Wiki40B עבור es.
גודל מערך נתונים :
2.70 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
wiki40b/th
תיאור תצורה : מערך נתונים של Wiki40B עבור th.
גודל ערכת נתונים:
326.29 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
wiki40b/tr
תיאור תצורה : מערך נתונים של Wiki40B עבור tr.
גודל ערכת נתונים:
308.87 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
wiki40b/bg
תיאור תצורה : מערך נתונים של Wiki40B עבור bg.
גודל ערכת נתונים:
433.20 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
wiki40b/ca
תיאור תצורה : מערך נתונים של Wiki40B עבור כ.
גודל מערך נתונים :
753.00 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
wiki40b/cs
תיאור תצורה : מערך נתונים של Wiki40B עבור cs.
גודל ערכת נתונים:
631.84 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
wiki40b/da
תיאור תצורה : מערך נתונים של Wiki40B עבור da.
גודל ערכת נתונים:
240.51 MiB
מטמון אוטומטי ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
wiki40b/el
תיאור תצורה : מערך נתונים של Wiki40B עבור el.
גודל ערכת נתונים:
524.77 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
wiki40b/et
תיאור תצורה : מערך נתונים של Wiki40B עבור et.
גודל מערך נתונים :
184.07 MiB
מטמון אוטומטי ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
wiki40b/fa
תיאור תצורה : מערך נתונים של Wiki40B עבור fa.
גודל ערכת נתונים:
482.55 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
wiki40b/fi
תיאור תצורה : מערך נתונים של Wiki40B עבור fi.
גודל מערך נתונים :
534.13 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
wiki40b/he
תיאור תצורה : מערך נתונים של Wiki40B עבור he.
גודל מערך נתונים :
869.51 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
wiki40b/hi
תיאור תצורה : מערך נתונים של Wiki40B עבור hi.
גודל ערכת נתונים:
277.56 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
wiki40b/hr
תיאור תצורה : מערך נתונים של Wiki40B עבור hr.
גודל מערך נתונים :
235.58 MiB
מטמון אוטומטי ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
wiki40b/hu
תיאור תצורה : מערך נתונים של Wiki40B עבור hu.
גודל מערך נתונים :
634.25 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
wiki40b/id
תיאור תצורה : מערך נתונים של Wiki40B עבור מזהה.
גודל מערך נתונים :
334.06 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
wiki40b/lt
תיאור תצורה : מערך נתונים של Wiki40B עבור lt.
גודל מערך נתונים :
140.46 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
wiki40b/lv
תיאור תצורה : מערך נתונים של Wiki40B עבור lv.
גודל ערכת נתונים:
80.07 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
wiki40b/ms
תיאור תצורה : מערך נתונים של Wiki40B עבור ms.
גודל ערכת נתונים:
142.49 MiB
מטמון אוטומטי ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
wiki40b/no
תיאור תצורה : מערך נתונים של Wiki40B עבור מס.
גודל ערכת נתונים:
382.03 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
wiki40b/ro
תיאור תצורה : מערך נתונים של Wiki40B עבור ro.
גודל ערכת נתונים:
319.68 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
wiki40b/sk
תיאור תצורה : מערך נתונים של Wiki40B עבור sk.
גודל מערך נתונים :
170.20 MiB
מטמון אוטומטי ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
wiki40b/sl
תיאור תצורה : מערך נתונים של Wiki40B עבור sl.
גודל מערך נתונים :
157.38 MiB
מטמון אוטומטי ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
wiki40b/sr
תיאור תצורה : מערך נתונים של Wiki40B עבור sr.
גודל ערכת נתונים:
582.20 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
wiki40b/sv
תיאור תצורה : מערך נתונים של Wiki40B עבור sv.
גודל ערכת נתונים:
613.62 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
wiki40b/tl
תיאור תצורה : מערך נתונים של Wiki40B עבור tl.
גודל ערכת נתונים:
29.04 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
wiki40b/uk
תיאור תצורה : מערך נתונים של Wiki40B עבור בריטניה.
גודל מערך נתונים :
1.67 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
wiki40b/vi
תיאור תצורה : מערך נתונים של Wiki40B עבור vi.
גודל ערכת נתונים:
497.70 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |