wiki40b

  • Descriptif :

Texte de nettoyage pour plus de 40 langues Wikipédia, les éditions de pages correspondent à des entités. Les ensembles de données sont répartis train/développement/test par langue. L'ensemble de données est nettoyé par filtrage de pages pour supprimer les pages de désambiguïsation, les pages de redirection, les pages supprimées et les pages non-entités. Chaque exemple contient l'identifiant wikidata de l'entité et l'article Wikipédia complet après le traitement de la page qui supprime les sections sans contenu et les objets structurés. Les modèles linguistiques formés sur ce corpus - dont 41 modèles monolingues et 2 modèles multilingues - sont disponibles sur https://tfhub.dev/google/collections/wiki40b-lm/1

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
texte Texte chaîne
version_id Texte chaîne
wikidata_id Texte chaîne
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (configuration par défaut)

  • Description de la configuration : Ensemble de données Wiki40B pour en.

  • Taille de l'ensemble de données : 9.91 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 162 274
'train' 2 926 536
'validation' 163 597

wiki40b/ar

  • Description de la configuration : ensemble de données Wiki40B pour ar.

  • Taille de l'ensemble de données : 833.20 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 12 271
'train' 220 885
'validation' 12 198

wiki40b/zh-cn

  • Description de la configuration : ensemble de données Wiki40B pour zh-cn.

  • Taille de l'ensemble de données : 985.53 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 30 355
'train' 549 672
'validation' 30 299

wiki40b/zh-tw

  • Description de la configuration : ensemble de données Wiki40B pour zh-tw.

  • Taille de l'ensemble de données : 986.45 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 30 670
'train' 552 031
'validation' 30 739

wiki40b/nl

  • Description de la configuration : ensemble de données Wiki40B pour nl.

  • Taille de l'ensemble de données : 961.82 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 24 776
'train' 447 555
'validation' 25 201

wiki40b/fr

  • Description de la config : Jeu de données Wiki40B pour fr.

  • Taille de l'ensemble de données : 3.37 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 68 004
'train' 1 227 206
'validation' 68 655

wiki40b/de

  • Description de la configuration : ensemble de données Wiki40B pour de.

  • Taille de l'ensemble de données : 4.78 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 86 594
'train' 1 554 910
'validation' 86 068

wiki40b/it

  • Description de la configuration : ensemble de données Wiki40B pour celui-ci.

  • Taille du jeu de données : 2.00 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 40 443
'train' 732 609
'validation' 40 684

wiki40b/ja

  • Description de la configuration : ensemble de données Wiki40B pour ja.

  • Taille du jeu de données : 2.19 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 41 268
'train' 745 392
'validation' 41 576

wiki40b/ko

  • Description de la configuration : Ensemble de données Wiki40B pour ko.

  • Taille de l'ensemble de données : 453.98 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 10 802
'train' 194 977
'validation' 10 805

wiki40b/pl

  • Description de la configuration : Ensemble de données Wiki40B pour pl.

  • Taille du jeu de données : 1.03 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 27 987
'train' 505 191
'validation' 28 310

wiki40b/pt

  • Description de la configuration : ensemble de données Wiki40B pour pt.

  • Taille du jeu de données : 1.08 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 22 693
'train' 406 507
'validation' 22 301

wiki40b/ru

  • Description de la configuration : ensemble de données Wiki40B pour ru.

  • Taille de l'ensemble de données : 4.13 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 51 885
'train' 926 037
'validation' 51 287

wiki40b/es

  • Description de la configuration : ensemble de données Wiki40B pour es.

  • Taille du jeu de données : 2.70 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 48 764
'train' 872 541
'validation' 48 592

wiki40b/th

  • Description de la config : Ensemble de données Wiki40B pour th.

  • Taille de l'ensemble de données : 326.29 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 3 114
'train' 56 798
'validation' 3 093

wiki40b/tr

  • Description de la configuration : ensemble de données Wiki40B pour tr.

  • Taille de l'ensemble de données : 308.87 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 7 890
'train' 142 576
'validation' 7 845

wiki40b/bg

  • Description de la configuration : ensemble de données Wiki40B pour bg.

  • Taille de l'ensemble de données : 433.20 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 7 289
'train' 130 670
'validation' 7 259

wiki40b/ca

  • Description de la configuration : ensemble de données Wiki40B pour env.

  • Taille de l'ensemble de données : 753.00 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 15 568
'train' 277 313
'validation' 15 362

wiki40b/cs

  • Description de la configuration : ensemble de données Wiki40B pour cs.

  • Taille de l'ensemble de données : 631.84 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 12 984
'train' 235 971
'validation' 13 096

wiki40b/da

  • Description de la configuration : ensemble de données Wiki40B pour da.

  • Taille de l'ensemble de données : 240.51 MiB

  • Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'test' 6 219
'train' 109 486
'validation' 6 173

wiki40b/el

  • Description de la configuration : Ensemble de données Wiki40B pour el.

  • Taille de l'ensemble de données : 524.77 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 5 261
'train' 93 596
'validation' 5 130

wiki40b/et

  • Description de la configuration : ensemble de données Wiki40B pour et.

  • Taille de l'ensemble de données : 184.07 MiB

  • Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'test' 6 205
'train' 114 464
'validation' 6 351

wiki40b/fa

  • Description de la configuration : Ensemble de données Wiki40B pour fa.

  • Taille de l'ensemble de données : 482.55 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 11 262
'train' 203 145
'validation' 11 180

wiki40b/fi

  • Description de la configuration : ensemble de données Wiki40B pour fi.

  • Taille de l'ensemble de données : 534.13 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 14 179
'train' 255 822
'validation' 13 962

wiki40b/il

  • Description de la configuration : ensemble de données Wiki40B pour lui.

  • Taille de l'ensemble de données : 869.51 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 9 344
'train' 165 359
'validation' 9 231

wiki40b/salut

  • Description de la configuration : Ensemble de données Wiki40B pour hi.

  • Taille de l'ensemble de données : 277.56 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 2 643
'train' 45 737
'validation' 2 596

wiki40b/h

  • Description de la configuration : ensemble de données Wiki40B pour hr.

  • Taille de l'ensemble de données : 235.58 MiB

  • Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'test' 5 724
'train' 103 857
'validation' 5 792

wiki40b/hu

  • Description de la configuration : Ensemble de données Wiki40B pour hu.

  • Taille de l'ensemble de données : 634.25 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 15 258
'train' 273 248
'validation' 15 208

wiki40b/id

  • Description de la configuration : ensemble de données Wiki40B pour l'identifiant.

  • Taille de l'ensemble de données : 334.06 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 8 598
'train' 156 255
'validation' 8 714

wiki40b/lt

  • Description de la configuration : Ensemble de données Wiki40B pour lt.

  • Taille de l'ensemble de données : 140.46 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'test' 4 683
'train' 84 854
'validation' 4 754

wiki40b/lv

  • Description de la configuration : ensemble de données Wiki40B pour le lv.

  • Taille de l'ensemble de données : 80.07 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'test' 1 932
'train' 33 064
'validation' 1 857

wiki40b/ms

  • Description de la configuration : ensemble de données Wiki40B pour ms.

  • Taille de l'ensemble de données : 142.49 MiB

  • Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'test' 5 235
'train' 97 509
'validation' 5 357

wiki40b/non

  • Description de la configuration : ensemble de données Wiki40B pour le no.

  • Taille de l'ensemble de données : 382.03 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 10 588
'train' 190 588
'validation' 10 547

wiki40b/ro

  • Description de la configuration : ensemble de données Wiki40B pour ro.

  • Taille de l'ensemble de données : 319.68 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 7 870
'train' 139 615
'validation' 7 624

wiki40b/sk

  • Description de la configuration : ensemble de données Wiki40B pour sk.

  • Taille de l'ensemble de données : 170.20 MiB

  • Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'test' 5 741
'train' 103 095
'validation' 5 604

wiki40b/sl

  • Description de la configuration : ensemble de données Wiki40B pour sl.

  • Taille de l'ensemble de données : 157.38 MiB

  • Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'test' 3 341
'train' 60 927
'validation' 3 287

wiki40b/sr

  • Description de la configuration : ensemble de données Wiki40B pour sr.

  • Taille de l'ensemble de données : 582.20 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 17 997
'train' 327 313
'validation' 18 100

wiki40b/sv

  • Description de la configuration : ensemble de données Wiki40B pour sv.

  • Taille de l'ensemble de données : 613.62 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 22 291
'train' 400 742
'validation' 22 263

wiki40b/tl

  • Description de la configuration : ensemble de données Wiki40B pour tl.

  • Taille de l'ensemble de données : 29.04 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'test' 1 446
'train' 25 940
'validation' 1 472

wiki40b/fr

  • Description de la configuration : ensemble de données Wiki40B pour le Royaume-Uni.

  • Taille du jeu de données : 1.67 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 26 581
'train' 477 618
'validation' 26 324

wiki40b/vi

  • Description de la configuration : ensemble de données Wiki40B pour vi.

  • Taille de l'ensemble de données : 497.70 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'test' 7 942
'train' 146 255
'validation' 8 195