wiki40b

  • Descripción :

El texto de limpieza para más de 40 ediciones de páginas en idiomas de Wikipedia corresponde a entidades. Los conjuntos de datos tienen divisiones de entrenamiento/desarrollo/prueba por idioma. El conjunto de datos se limpia mediante filtrado de páginas para eliminar páginas de desambiguación, páginas de redireccionamiento, páginas eliminadas y páginas sin entidad. Cada ejemplo contiene la identificación de wikidata de la entidad y el artículo completo de Wikipedia después del procesamiento de la página que elimina secciones sin contenido y objetos estructurados. Los modelos de lenguaje entrenados en este corpus, incluidos 41 modelos monolingües y 2 modelos multilingües, se pueden encontrar en https://tfhub.dev/google/collections/wiki40b-lm/1

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
texto Texto cadena
id_versión Texto cadena
id_wikidata Texto cadena
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (configuración predeterminada)

  • Descripción de la configuración : conjunto de datos Wiki40B para en.

  • Tamaño del conjunto de datos : 9.91 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 162,274
'train' 2.926.536
'validation' 163.597

wiki40b/ar

  • Descripción de la configuración : conjunto de datos Wiki40B para ar.

  • Tamaño del conjunto de datos : 833.20 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 12.271
'train' 220.885
'validation' 12,198

wiki40b/zh-cn

  • Descripción de la configuración : conjunto de datos Wiki40B para zh-cn.

  • Tamaño del conjunto de datos : 985.53 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 30.355
'train' 549,672
'validation' 30.299

wiki40b/zh-tw

  • Descripción de la configuración : conjunto de datos Wiki40B para zh-tw.

  • Tamaño del conjunto de datos : 986.45 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 30.670
'train' 552.031
'validation' 30.739

wiki40b/nl

  • Descripción de la configuración : conjunto de datos Wiki40B para nl.

  • Tamaño del conjunto de datos : 961.82 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 24.776
'train' 447,555
'validation' 25.201

wiki40b/es

  • Descripción de la configuración : conjunto de datos Wiki40B para fr.

  • Tamaño del conjunto de datos : 3.37 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 68.004
'train' 1.227.206
'validation' 68.655

wiki40b/de

  • Descripción de la configuración : conjunto de datos Wiki40B para de.

  • Tamaño del conjunto de datos : 4.78 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 86.594
'train' 1.554.910
'validation' 86.068

wiki40b/es

  • Descripción de la configuración : conjunto de datos Wiki40B para ello.

  • Tamaño del conjunto de datos : 2.00 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 40.443
'train' 732.609
'validation' 40.684

wiki40b/ja

  • Descripción de la configuración : conjunto de datos Wiki40B para ja.

  • Tamaño del conjunto de datos : 2.19 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 41.268
'train' 745,392
'validation' 41.576

wiki40b/ko

  • Descripción de la configuración : conjunto de datos Wiki40B para ko.

  • Tamaño del conjunto de datos : 453.98 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 10.802
'train' 194,977
'validation' 10.805

wiki40b/pl

  • Descripción de la configuración : conjunto de datos Wiki40B para pl.

  • Tamaño del conjunto de datos : 1.03 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 27,987
'train' 505,191
'validation' 28.310

wiki40b/pt

  • Descripción de la configuración : conjunto de datos Wiki40B para pt.

  • Tamaño del conjunto de datos : 1.08 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 22.693
'train' 406,507
'validation' 22.301

wiki40b/ru

  • Descripción de la configuración : conjunto de datos Wiki40B para ru.

  • Tamaño del conjunto de datos : 4.13 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 51.885
'train' 926.037
'validation' 51.287

wiki40b/es

  • Descripción de la configuración : conjunto de datos Wiki40B para es.

  • Tamaño del conjunto de datos : 2.70 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 48.764
'train' 872.541
'validation' 48.592

wiki40b/th

  • Descripción de la configuración : conjunto de datos Wiki40B para th.

  • Tamaño del conjunto de datos : 326.29 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 3,114
'train' 56.798
'validation' 3.093

wiki40b/tr

  • Descripción de la configuración : conjunto de datos Wiki40B para tr.

  • Tamaño del conjunto de datos : 308.87 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 7.890
'train' 142.576
'validation' 7.845

wiki40b/bg

  • Descripción de la configuración : conjunto de datos Wiki40B para bg.

  • Tamaño del conjunto de datos : 433.20 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 7.289
'train' 130.670
'validation' 7.259

wiki40b/ca

  • Descripción de la configuración : conjunto de datos Wiki40B para ca.

  • Tamaño del conjunto de datos : 753.00 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 15.568
'train' 277,313
'validation' 15.362

wiki40b/cs

  • Descripción de la configuración : conjunto de datos Wiki40B para cs.

  • Tamaño del conjunto de datos : 631.84 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 12,984
'train' 235.971
'validation' 13.096

wiki40b/da

  • Descripción de la configuración : conjunto de datos Wiki40B para da.

  • Tamaño del conjunto de datos : 240.51 MiB

  • Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'test' 6.219
'train' 109.486
'validation' 6.173

wiki40b/el

  • Descripción de la configuración : conjunto de datos Wiki40B para el.

  • Tamaño del conjunto de datos : 524.77 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 5.261
'train' 93.596
'validation' 5.130

wiki40b/et

  • Descripción de la configuración : conjunto de datos Wiki40B para et.

  • Tamaño del conjunto de datos : 184.07 MiB

  • Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'test' 6.205
'train' 114.464
'validation' 6.351

wiki40b/fa

  • Descripción de la configuración : conjunto de datos Wiki40B para fa.

  • Tamaño del conjunto de datos : 482.55 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 11.262
'train' 203,145
'validation' 11.180

wiki40b/fi

  • Descripción de la configuración : conjunto de datos Wiki40B para fi.

  • Tamaño del conjunto de datos : 534.13 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 14.179
'train' 255.822
'validation' 13,962

wiki40b/él

  • Descripción de la configuración : conjunto de datos Wiki40B para él.

  • Tamaño del conjunto de datos : 869.51 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 9.344
'train' 165.359
'validation' 9.231

wiki40b/hola

  • Descripción de la configuración : conjunto de datos Wiki40B para hola.

  • Tamaño del conjunto de datos : 277.56 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 2.643
'train' 45.737
'validation' 2,596

wiki40b/hora

  • Descripción de la configuración : conjunto de datos Wiki40B para hr.

  • Tamaño del conjunto de datos : 235.58 MiB

  • Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'test' 5.724
'train' 103.857
'validation' 5.792

wiki40b/hu

  • Descripción de la configuración : conjunto de datos Wiki40B para hu.

  • Tamaño del conjunto de datos : 634.25 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 15.258
'train' 273,248
'validation' 15.208

wiki40b/id

  • Descripción de la configuración : conjunto de datos Wiki40B para id.

  • Tamaño del conjunto de datos : 334.06 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 8.598
'train' 156.255
'validation' 8.714

wiki40b/lt

  • Descripción de la configuración : conjunto de datos Wiki40B para lt.

  • Tamaño del conjunto de datos : 140.46 MiB

  • Almacenamiento en caché automático ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 4.683
'train' 84.854
'validation' 4.754

wiki40b/lv

  • Descripción de la configuración : conjunto de datos Wiki40B para lv.

  • Tamaño del conjunto de datos : 80.07 MiB

  • Almacenamiento en caché automático ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 1.932
'train' 33.064
'validation' 1.857

wiki40b/ms

  • Descripción de la configuración : conjunto de datos Wiki40B para ms.

  • Tamaño del conjunto de datos : 142.49 MiB

  • Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'test' 5.235
'train' 97.509
'validation' 5.357

wiki40b/no

  • Descripción de la configuración : conjunto de datos Wiki40B para el no.

  • Tamaño del conjunto de datos : 382.03 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 10.588
'train' 190.588
'validation' 10.547

wiki40b/ro

  • Descripción de la configuración : conjunto de datos Wiki40B para ro.

  • Tamaño del conjunto de datos : 319.68 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 7.870
'train' 139.615
'validation' 7.624

wiki40b/sk

  • Descripción de la configuración : conjunto de datos Wiki40B para sk.

  • Tamaño del conjunto de datos : 170.20 MiB

  • Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'test' 5.741
'train' 103.095
'validation' 5.604

wiki40b/sl

  • Descripción de la configuración : conjunto de datos Wiki40B para sl.

  • Tamaño del conjunto de datos : 157.38 MiB

  • Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'test' 3.341
'train' 60.927
'validation' 3.287

wiki40b/sr

  • Descripción de la configuración : conjunto de datos Wiki40B para sr.

  • Tamaño del conjunto de datos : 582.20 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 17,997
'train' 327,313
'validation' 18.100

wiki40b/sv

  • Descripción de la configuración : conjunto de datos Wiki40B para sv.

  • Tamaño del conjunto de datos : 613.62 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 22,291
'train' 400,742
'validation' 22,263

wiki40b/tl

  • Descripción de la configuración : conjunto de datos Wiki40B para tl.

  • Tamaño del conjunto de datos : 29.04 MiB

  • Almacenamiento en caché automático ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 1.446
'train' 25.940
'validation' 1.472

wiki40b/reino Unido

  • Descripción de la configuración : conjunto de datos Wiki40B para el Reino Unido.

  • Tamaño del conjunto de datos : 1.67 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 26.581
'train' 477,618
'validation' 26.324

wiki40b/vi

  • Descripción de la configuración : conjunto de datos Wiki40B para vi.

  • Tamaño del conjunto de datos : 497.70 MiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 7,942
'train' 146.255
'validation' 8.195