wiki40b

  • Описание :

Текст очистки для более чем 40 языков Википедии, выпуски страниц соответствуют сущностям. Наборы данных разделены на обучение/разработку/тестирование для каждого языка. Набор данных очищается путем фильтрации страниц для удаления страниц с неоднозначностью, страниц перенаправления, удаленных страниц и страниц, не являющихся сущностями. Каждый пример содержит идентификатор объекта в викиданных и полную статью в Википедии после обработки страницы, которая удаляет несодержательные разделы и структурированные объекты. Языковые модели, обученные в этом корпусе, включая 41 одноязычную модель и 2 многоязычные модели, можно найти по адресу https://hub.tensorflow.google.cn/google/collections/. вики40б-лм/1.

  • Домашняя страница : https://research.google/pubs/pub49029/

  • Исходный код : tfds.text.Wiki40b

  • Версии :

    • 1.3.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Структура функции :

FeaturesDict({
    'text': Text(shape=(), dtype=tf.string),
    'version_id': Text(shape=(), dtype=tf.string),
    'wikidata_id': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
текст Текст tf.string
version_id Текст tf.string
wikidata_id Текст tf.string
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (конфигурация по умолчанию)

  • Описание конфигурации : набор данных Wiki40B для en.

  • Размер набора данных : 9.91 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 162 274
'train' 2 926 536
'validation' 163 597

wiki40b/ar

  • Описание конфигурации : набор данных Wiki40B для ar.

  • Размер набора данных : 833.20 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 12 271
'train' 220 885
'validation' 12 198

wiki40b/zh-сп

  • Описание конфигурации : набор данных Wiki40B для zh-cn.

  • Размер набора данных : 985.53 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 30 355
'train' 549 672
'validation' 30 299

wiki40b/ж-тв

  • Описание конфигурации : набор данных Wiki40B для zh-tw.

  • Размер набора данных : 986.45 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 30 670
'train' 552 031
'validation' 30 739

wiki40b/nl

  • Описание конфигурации : набор данных Wiki40B для nl.

  • Размер набора данных : 961.82 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 24 776
'train' 447 555
'validation' 25 201

wiki40b/fr

  • Описание конфигурации : набор данных Wiki40B для фр.

  • Размер набора данных : 3.37 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 68 004
'train' 1 227 206
'validation' 68 655

wiki40b/de

  • Описание конфигурации : набор данных Wiki40B для de.

  • Размер набора данных : 4.78 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 86 594
'train' 1 554 910
'validation' 86 068

wiki40b/it

  • Описание конфигурации : набор данных Wiki40B для него.

  • Размер набора данных : 2.00 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 40 443
'train' 732 609
'validation' 40 684

wiki40b/ja

  • Описание конфигурации : набор данных Wiki40B для ja.

  • Размер набора данных : 2.19 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 41 268
'train' 745 392
'validation' 41 576

wiki40b/ко

  • Описание конфигурации : набор данных Wiki40B для ko.

  • Размер набора данных : 453.98 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 10 802
'train' 194 977
'validation' 10 805

wiki40b/pl

  • Описание конфигурации : набор данных Wiki40B для пл.

  • Размер набора данных : 1.03 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 27 987
'train' 505 191
'validation' 28 310

wiki40b/pt

  • Описание конфигурации : набор данных Wiki40B для pt.

  • Размер набора данных : 1.08 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 22 693
'train' 406 507
'validation' 22 301

wiki40b/ru

  • Описание конфига: Датасет Wiki40B для ru.

  • Размер набора данных : 4.13 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 51 885
'train' 926 037
'validation' 51 287

wiki40b/es

  • Описание конфигурации : набор данных Wiki40B для es.

  • Размер набора данных : 2.70 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 48 764
'train' 872 541
'validation' 48 592

wiki40b/th

  • Описание конфигурации : набор данных Wiki40B для th.

  • Размер набора данных : 326.29 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 3114
'train' 56 798
'validation' 3093

wiki40b/tr

  • Описание конфигурации : набор данных Wiki40B для tr.

  • Размер набора данных : 308.87 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 7890
'train' 142 576
'validation' 7845

wiki40b/bg

  • Описание конфигурации : набор данных Wiki40B для bg.

  • Размер набора данных : 433.20 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 7 289
'train' 130 670
'validation' 7 259

wiki40b/ca

  • Описание конфигурации : набор данных Wiki40B для ок.

  • Размер набора данных : 753.00 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 15 568
'train' 277 313
'validation' 15 362

wiki40b/cs

  • Описание конфигурации : набор данных Wiki40B для cs.

  • Размер набора данных : 631.84 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 12 984
'train' 235 971
'validation' 13 096

wiki40b/да

  • Описание конфигурации : набор данных Wiki40B для da.

  • Размер набора данных : 240.51 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 6219
'train' 109 486
'validation' 6173

wiki40b/эл

  • Описание конфигурации : набор данных Wiki40B для эл.

  • Размер набора данных : 524.77 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 5261
'train' 93 596
'validation' 5130

wiki40b/et

  • Описание конфигурации : набор данных Wiki40B для et.

  • Размер набора данных : 184.07 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 6205
'train' 114 464
'validation' 6351

wiki40b/fa

  • Описание конфигурации : набор данных Wiki40B для fa.

  • Размер набора данных : 482.55 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 11 262
'train' 203 145
'validation' 11 180

wiki40b/fi

  • Описание конфигурации : набор данных Wiki40B для fi.

  • Размер набора данных : 534.13 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 14 179
'train' 255 822
'validation' 13 962

wiki40b/он

  • Описание конфигурации : набор данных Wiki40B для he.

  • Размер набора данных : 869.51 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 9344
'train' 165 359
'validation' 9 231

wiki40b/привет

  • Описание конфигурации : набор данных Wiki40B для привет.

  • Размер набора данных : 277.56 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 2643
'train' 45 737
'validation' 2596

вики40б/ч

  • Описание конфигурации : набор данных Wiki40B для hr.

  • Размер набора данных : 235.58 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 5724
'train' 103 857
'validation' 5792

wiki40b/hu

  • Описание конфигурации : набор данных Wiki40B для hu.

  • Размер набора данных : 634.25 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 15 258
'train' 273 248
'validation' 15 208

wiki40b/id

  • Описание конфигурации : набор данных Wiki40B для id.

  • Размер набора данных : 334.06 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 8 598
'train' 156 255
'validation' 8714

wiki40b/lt

  • Описание конфигурации : набор данных Wiki40B для lt.

  • Размер набора данных : 140.46 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 4683
'train' 84 854
'validation' 4754

wiki40b/lv

  • Описание конфигурации : набор данных Wiki40B для lv.

  • Размер набора данных : 80.07 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1932
'train' 33 064
'validation' 1857

вики40б/мс

  • Описание конфигурации : набор данных Wiki40B для ms.

  • Размер набора данных : 142.49 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 5235
'train' 97 509
'validation' 5357

wiki40b/нет

  • Описание конфигурации : набор данных Wiki40B для №.

  • Размер набора данных : 382.03 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 10 588
'train' 190 588
'validation' 10 547

wiki40b/ro

  • Описание конфигурации : набор данных Wiki40B для ro.

  • Размер набора данных : 319.68 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 7870
'train' 139 615
'validation' 7624

wiki40b/sk

  • Описание конфигурации : набор данных Wiki40B для sk.

  • Размер набора данных : 170.20 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 5741
'train' 103 095
'validation' 5604

wiki40b/sl

  • Описание конфигурации : набор данных Wiki40B для sl.

  • Размер набора данных : 157.38 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 3341
'train' 60 927
'validation' 3287

wiki40b/ср

  • Описание конфигурации : набор данных Wiki40B для sr.

  • Размер набора данных : 582.20 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 17 997
'train' 327 313
'validation' 18 100

wiki40b/sv

  • Описание конфигурации : набор данных Wiki40B для sv.

  • Размер набора данных : 613.62 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 22 291
'train' 400 742
'validation' 22 263

wiki40b/tl

  • Описание конфигурации : набор данных Wiki40B для tl.

  • Размер набора данных : 29.04 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1446
'train' 25 940
'validation' 1472

wiki40b/uk

  • Описание конфигурации : набор данных Wiki40B для Великобритании.

  • Размер набора данных : 1.67 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 26 581
'train' 477 618
'validation' 26 324

wiki40b/vi

  • Описание конфигурации : набор данных Wiki40B для vi.

  • Размер набора данных : 497.70 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 7942
'train' 146 255
'validation' 8195