- توضیحات :
متن پاکسازی برای بیش از 40 زبان ویکیپدیا، نسخههای صفحات مربوط به موجودیتها هستند. مجموعه دادهها دارای تقسیمبندی قطار/dev/تست در هر زبان هستند. مجموعه داده با فیلتر کردن صفحه پاک میشود تا صفحات ابهامزدایی، صفحات تغییر مسیر، صفحات حذفشده و صفحات غیر موجودیت حذف شوند. هر مثال حاوی شناسه ویکی داده موجودیت، و مقاله کامل ویکیپدیا پس از پردازش صفحه است که بخشهای غیرمحتوا و اشیاء ساختاریافته را حذف میکند. مدل های زبان آموزش دیده در این مجموعه - شامل 41 مدل تک زبانه، و 2 مدل چند زبانه - را می توانید در https://tfhub.dev/google/collections/wiki40b-lm/1 بیابید.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://research.google/pubs/pub49029/
کد منبع :
tfds.text.Wiki40b
نسخه ها :
-
1.3.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown size
ساختار ویژگی :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
متن | متن | رشته | ||
version_id | متن | رشته | ||
wikidata_id | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (پیکربندی پیشفرض)
توضیحات پیکربندی : مجموعه داده Wiki40B برای en.
حجم مجموعه داده :
9.91 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 162274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ar
توضیحات پیکربندی : مجموعه داده Wiki40B برای ar.
حجم مجموعه داده :
833.20 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 12271 |
'train' | 220,885 |
'validation' | 12,198 |
- مثالها ( tfds.as_dataframe ):
wiki40b/zh-cn
توضیحات پیکربندی : مجموعه داده Wiki40B برای zh-cn.
حجم مجموعه داده :
985.53 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 30,355 |
'train' | 549672 |
'validation' | 30,299 |
- مثالها ( tfds.as_dataframe ):
wiki40b/zh-tw
توضیحات پیکربندی : مجموعه داده Wiki40B برای zh-tw.
حجم مجموعه داده :
986.45 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- مثالها ( tfds.as_dataframe ):
wiki40b/nl
توضیحات پیکربندی : مجموعه داده Wiki40B برای nl.
حجم مجموعه داده :
961.82 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 24776 |
'train' | 447,555 |
'validation' | 25,201 |
- مثالها ( tfds.as_dataframe ):
wiki40b/fr
توضیحات پیکربندی : مجموعه داده Wiki40B برای fr.
حجم مجموعه داده :
3.37 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 68004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- مثالها ( tfds.as_dataframe ):
wiki40b/de
توضیحات پیکربندی : مجموعه داده Wiki40B برای de.
حجم مجموعه داده :
4.78 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 86594 |
'train' | 1,554,910 |
'validation' | 86068 |
- مثالها ( tfds.as_dataframe ):
wiki40b/it
توضیحات پیکربندی : مجموعه داده Wiki40B برای آن.
حجم مجموعه داده :
2.00 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40684 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ja
توضیحات پیکربندی : مجموعه داده Wiki40B برای ja.
حجم مجموعه داده :
2.19 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 41268 |
'train' | 745,392 |
'validation' | 41576 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ko
توضیحات پیکربندی : مجموعه داده Wiki40B برای ko.
حجم مجموعه داده :
453.98 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10802 |
'train' | 194,977 |
'validation' | 10805 |
- مثالها ( tfds.as_dataframe ):
wiki40b/pl
توضیحات پیکربندی : مجموعه داده Wiki40B برای pl.
حجم مجموعه داده :
1.03 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- مثالها ( tfds.as_dataframe ):
wiki40b/pt
توضیحات پیکربندی : مجموعه داده Wiki40B برای pt.
حجم مجموعه داده :
1.08 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 22693 |
'train' | 406,507 |
'validation' | 22,301 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ru
توضیحات پیکربندی : مجموعه داده Wiki40B برای ru.
حجم مجموعه داده :
4.13 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- مثالها ( tfds.as_dataframe ):
wiki40b/es
توضیحات پیکربندی : مجموعه داده Wiki40B برای es.
حجم مجموعه داده :
2.70 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 48764 |
'train' | 872,541 |
'validation' | 48592 |
- مثالها ( tfds.as_dataframe ):
wiki40b/th
توضیحات پیکربندی : مجموعه داده Wiki40B برای th.
حجم مجموعه داده :
326.29 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3,114 |
'train' | 56798 |
'validation' | 3,093 |
- مثالها ( tfds.as_dataframe ):
wiki40b/tr
توضیحات پیکربندی : مجموعه داده Wiki40B برای tr.
حجم مجموعه داده :
308.87 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 7890 |
'train' | 142,576 |
'validation' | 7,845 |
- مثالها ( tfds.as_dataframe ):
wiki40b/bg
توضیحات پیکربندی : مجموعه داده Wiki40B برای bg.
حجم مجموعه داده :
433.20 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 7289 |
'train' | 130,670 |
'validation' | 7,259 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ca
توضیحات پیکربندی : مجموعه داده Wiki40B برای حدودا.
حجم مجموعه داده :
753.00 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- مثالها ( tfds.as_dataframe ):
wiki40b/cs
توضیحات پیکربندی : مجموعه داده Wiki40B برای cs.
حجم مجموعه داده :
631.84 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 12984 |
'train' | 235,971 |
'validation' | 13,096 |
- مثالها ( tfds.as_dataframe ):
wiki40b/da
توضیحات پیکربندی : مجموعه داده Wiki40B برای da.
حجم مجموعه داده :
240.51 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6219 |
'train' | 109,486 |
'validation' | 6,173 |
- مثالها ( tfds.as_dataframe ):
wiki40b/el
توضیحات پیکربندی : مجموعه داده Wiki40B برای el.
حجم مجموعه داده :
524.77 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- مثالها ( tfds.as_dataframe ):
wiki40b/et
توضیحات پیکربندی : مجموعه داده Wiki40B برای et.
حجم مجموعه داده :
184.07 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6205 |
'train' | 114,464 |
'validation' | 6,351 |
- مثالها ( tfds.as_dataframe ):
wiki40b/fa
توضیحات پیکربندی : مجموعه داده Wiki40B برای fa.
حجم مجموعه داده :
482.55 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 11262 |
'train' | 203,145 |
'validation' | 11180 |
- مثالها ( tfds.as_dataframe ):
wiki40b/fi
توضیحات پیکربندی : مجموعه داده Wiki40B برای fi.
حجم مجموعه داده :
534.13 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13962 |
- مثالها ( tfds.as_dataframe ):
wiki40b/he
توضیحات پیکربندی : مجموعه داده Wiki40B برای او.
حجم مجموعه داده :
869.51 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- مثالها ( tfds.as_dataframe ):
wiki40b/hi
توضیحات پیکربندی : مجموعه داده Wiki40B برای سلام.
حجم مجموعه داده :
277.56 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2643 |
'train' | 45737 |
'validation' | 2596 |
- مثالها ( tfds.as_dataframe ):
wiki40b/hr
توضیحات پیکربندی : مجموعه داده Wiki40B برای ساعت.
حجم مجموعه داده :
235.58 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5792 |
- مثالها ( tfds.as_dataframe ):
wiki40b/hu
توضیحات پیکربندی : مجموعه داده Wiki40B برای hu.
حجم مجموعه داده :
634.25 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- مثالها ( tfds.as_dataframe ):
wiki40b/id
توضیحات پیکربندی : مجموعه داده Wiki40B برای شناسه.
حجم مجموعه داده :
334.06 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 8598 |
'train' | 156,255 |
'validation' | 8714 |
- مثالها ( tfds.as_dataframe ):
wiki40b/lt
توضیحات پیکربندی : مجموعه داده Wiki40B برای lt.
حجم مجموعه داده :
140.46 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 4683 |
'train' | 84,854 |
'validation' | 4,754 |
- مثالها ( tfds.as_dataframe ):
wiki40b/lv
توضیحات پیکربندی : مجموعه داده Wiki40B برای lv.
حجم مجموعه داده :
80.07 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ms
توضیحات پیکربندی : مجموعه داده Wiki40B برای ms.
حجم مجموعه داده :
142.49 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- مثالها ( tfds.as_dataframe ):
wiki40b/no
توضیحات پیکربندی : مجموعه داده Wiki40B برای شماره.
حجم مجموعه داده :
382.03 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- مثالها ( tfds.as_dataframe ):
wiki40b/ro
توضیحات پیکربندی : مجموعه داده Wiki40B برای ro.
حجم مجموعه داده :
319.68 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 7870 |
'train' | 139615 |
'validation' | 7,624 |
- مثالها ( tfds.as_dataframe ):
wiki40b/sk
توضیحات پیکربندی : مجموعه داده Wiki40B برای sk.
حجم مجموعه داده :
170.20 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- مثالها ( tfds.as_dataframe ):
wiki40b/sl
توضیحات پیکربندی : مجموعه داده Wiki40B برای sl.
حجم مجموعه داده :
157.38 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- مثالها ( tfds.as_dataframe ):
wiki40b/sr
توضیحات پیکربندی : مجموعه داده Wiki40B برای sr.
حجم مجموعه داده :
582.20 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18100 |
- مثالها ( tfds.as_dataframe ):
wiki40b/sv
توضیحات پیکربندی : مجموعه داده Wiki40B برای sv.
حجم مجموعه داده :
613.62 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 22291 |
'train' | 400,742 |
'validation' | 22263 |
- مثالها ( tfds.as_dataframe ):
wiki40b/tl
توضیحات پیکربندی : مجموعه داده Wiki40B برای tl.
حجم مجموعه داده :
29.04 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,446 |
'train' | 25940 |
'validation' | 1,472 |
- مثالها ( tfds.as_dataframe ):
wiki40b/uk
توضیحات پیکربندی : مجموعه داده Wiki40B برای انگلستان.
حجم مجموعه داده :
1.67 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 26581 |
'train' | 477,618 |
'validation' | 26,324 |
- مثالها ( tfds.as_dataframe ):
wiki40b/vi
توضیحات پیکربندی : مجموعه داده Wiki40B برای vi.
حجم مجموعه داده :
497.70 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 7,942 |
'train' | 146255 |
'validation' | 8,195 |
- مثالها ( tfds.as_dataframe ):