voz_comun

  • Descripción :

Conjunto de datos de voz común de Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
acento Texto cuerda Acento del hablante, consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
años Texto cuerda Grupo de edad del hablante (por ejemplo, adolescentes o cuarenta), consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
Identificación del cliente Texto cuerda UUID hash de un usuario dado
votos negativos Escalar int32 Número de personas que dijeron que el audio no coincide con el texto
género Etiqueta de clase int64 Género del hablante
segmento Texto cuerda Si la oración pertenece a un segmento de conjunto de datos personalizado, se enumerará aquí
frase Texto cuerda Supuesta transcripción del audio.
votos a favor Escalar int32 Número de personas que dijeron que el audio coincide con el texto
voz Audio (Ninguna,) int64

common_voice/en (configuración predeterminada)

  • Descripción de la configuración : Código de idioma: en

  • Tamaño de descarga : 56.45 GiB

  • Tamaño del conjunto de datos : 2.79 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

voz_común/ab

  • Descripción de configuración : Código de idioma: ab

  • Tamaño de la descarga : 39.14 MiB

  • Tamaño del conjunto de datos : 133.24 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 9
'train' 22
'validation' 31

voz_común/ar

  • Descripción de la configuración : Código de idioma: ar

  • Tamaño de descarga : 1.64 GiB

  • Tamaño del conjunto de datos : 67.16 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

voz_común/como

  • Descripción de configuración : Código de idioma: como

  • Tamaño de descarga : 21.20 MiB

  • Tamaño del conjunto de datos : 1.65 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 124
'test' 110
'train' 270
'validation' 504

voz_común/br

  • Descripción de la configuración : Código de idioma: br

  • Tamaño de la descarga : 443.72 MiB

  • Tamaño del conjunto de datos : 13.46 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,997
'test' 2,087
'train' 2,780
'validation' 8,560

common_voice/es

  • Descripción de configuración : Código de idioma: ca

  • Tamaño de descarga : 19.32 GiB

  • Tamaño del conjunto de datos : 1.19 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,724
'test' 15,724
'train' 285,584
'validation' 416,701

voz_común/cnh

  • Descripción de la configuración : Código de idioma: cnh

  • Tamaño de la descarga : 153.86 MiB

  • Tamaño del conjunto de datos : 5.12 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 756
'test' 752
'train' 807
'validation' 2,432

voz_común/cs

  • Descripción de la configuración : Código de idioma: cs

  • Tamaño de descarga : 1.18 GiB

  • Tamaño del conjunto de datos : 56.89 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30.431

voz_común/cv

  • Descripción de configuración : Código de idioma: cv

  • Tamaño de la descarga : 418.98 MiB

  • Tamaño del conjunto de datos : 8.10 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 818
'test' 788
'train' 931
'validation' 3,496

voz_comun/cy

  • Descripción de la configuración : Código de idioma: cy

  • Tamaño de descarga : 3.20 GiB

  • Tamaño del conjunto de datos : 128.68 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,776
'test' 4,820
'train' 6,839
'validation' 72,984

common_voice/de

  • Descripción de la configuración : Código de idioma: de

  • Tamaño de descarga : 21.68 GiB

  • Tamaño del conjunto de datos : 1.29 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

voz_común/dv

  • Descripción de configuración : Código de idioma: dv

  • Tamaño de la descarga : 515.45 MiB

  • Tamaño del conjunto de datos : 31.59 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,077
'test' 2,202
'train' 2,680
'validation' 11,866

voz_común/el

  • Descripción de la configuración : Código de idioma: el

  • Tamaño de la descarga : 363.89 MiB

  • Tamaño del conjunto de datos : 14.62 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5,996

common_voice/eo

  • Descripción de configuración : Código de idioma: eo

  • Tamaño de descarga : 2.69 GiB

  • Tamaño del conjunto de datos : 167.14 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 8,987
'test' 8,969
'train' 19,587
'validation' 58,094

common_voice/es

  • Descripción de la configuración : Código de idioma: es

  • Tamaño de descarga : 15.08 GiB

  • Tamaño del conjunto de datos : 684.66 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

voz_común/et

  • Descripción de la configuración : Código de idioma: et

  • Tamaño de la descarga : 731.63 MiB

  • Tamaño del conjunto de datos : 37.95 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10,683

common_voice/eu

  • Descripción de la configuración : Código de idioma: eu

  • Tamaño de descarga : 3.41 GiB

  • Tamaño del conjunto de datos : 127.60 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,172
'test' 5,172
'train' 7,505
'validation' 63,009

voz_común/fa

  • Descripción de la configuración : Código de idioma: fa

  • Tamaño de descarga : 8.27 GiB

  • Tamaño del conjunto de datos : 328.61 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251,659

voz_común/fi

  • Descripción de la configuración : Código de idioma: fi

  • Tamaño de la descarga : 47.57 MiB

  • Tamaño del conjunto de datos : 3.41 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 415
'test' 428
'train' 460
'validation' 1,305

common_voice/fr

  • Descripción de la configuración : Código de idioma: fr

  • Tamaño de descarga : 17.82 GiB

  • Tamaño del conjunto de datos : 1.17 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,763
'test' 15,763
'train' 298,982
'validation' 461,004

voz_común/fy-NL

  • Descripción de la configuración : Código de idioma: fy-NL

  • Tamaño de descarga : 1.15 GiB

  • Tamaño del conjunto de datos : 29.93 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,790
'test' 3,020
'train' 3,927
'validation' 10,495

common_voice/ga-ES

  • Descripción de configuración : Código de idioma: ga-IE

  • Tamaño de descarga : 149.30 MiB

  • Tamaño del conjunto de datos : 5.11 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 497
'test' 506
'train' 541
'validation' 3,352

voz_común/hola

  • Descripción de la configuración : Código de idioma: hola

  • Tamaño de la descarga : 20.43 MiB

  • Tamaño del conjunto de datos : 1.15 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 135
'test' 127
'train' 157
'validation' 419

voz_común/hsb

  • Descripción de configuración : Código de idioma: hsb

  • Tamaño de la descarga : 75.69 MiB

  • Tamaño del conjunto de datos : 5.67 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 172
'test' 387
'train' 808
'validation' 1,367

voz_comun/hu

  • Descripción de la configuración : Código de idioma: hu

  • Tamaño de la descarga : 231.51 MiB

  • Tamaño del conjunto de datos : 17.07 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,434
'test' 1,649
'train' 3,348
'validation' 6,457

common_voice/ia

  • Descripción de configuración : Código de idioma: ia

  • Tamaño de descarga : 216.01 MiB

  • Tamaño del conjunto de datos : 14.99 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,601
'test' 899
'train' 3,477
'validation' 5,978

voz_común/id

  • Descripción de configuración : Código de idioma: id

  • Tamaño de la descarga : 453.87 MiB

  • Tamaño del conjunto de datos : 17.20 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8,696

voz_comun/es

  • Descripción de la configuración : Código de idioma: it

  • Tamaño de descarga : 5.20 GiB

  • Tamaño del conjunto de datos : 316.38 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 12,928
'test' 12,928
'train' 58,015
'validation' 102,579

voz_común/ja

  • Descripción de configuración : Código de idioma: ja

  • Tamaño de la descarga : 145.80 MiB

  • Tamaño del conjunto de datos : 6.83 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 586
'test' 632
'train' 722
'validation' 3,072

voz_común/ka

  • Descripción de configuración : Código de idioma: ka

  • Tamaño de la descarga : 99.45 MiB

  • Tamaño del conjunto de datos : 7.51 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 527
'test' 656
'train' 1,058
'validation' 2,275

voz_común/kab

  • Descripción de la configuración : Código de idioma: kab

  • Tamaño de descarga : 15.99 GiB

  • Tamaño del conjunto de datos : 718.51 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 14,622
'test' 14,622
'train' 120,530
'validation' 573,718

voz_común/ky

  • Descripción de la configuración : Código de idioma: ky

  • Tamaño de la descarga : 552.60 MiB

  • Tamaño del conjunto de datos : 18.70 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,511
'test' 1,503
'train' 1,955
'validation' 9,236

voz_común/lg

  • Descripción de configuración : Código de idioma: lg

  • Tamaño de la descarga : 198.55 MiB

  • Tamaño del conjunto de datos : 6.65 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 384
'test' 584
'train' 1,250
'validation' 2220

voz_común/lt

  • Descripción de configuración : Código de idioma: lt

  • Tamaño de descarga : 129.03 MiB

  • Tamaño del conjunto de datos : 4.79 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 244
'test' 466
'train' 931
'validation' 1,644

voz_común/lv

  • Descripción de configuración : Código de idioma: lv

  • Tamaño de la descarga : 198.66 MiB

  • Tamaño del conjunto de datos : 13.07 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,002
'test' 1,882
'train' 2,552
'validation' 6,444

voz_común/mn

  • Descripción de la configuración : Código de idioma: mn

  • Tamaño de la descarga : 463.84 MiB

  • Tamaño del conjunto de datos : 22.09 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

voz_común/mt

  • Descripción de la configuración : Código de idioma: mt

  • Tamaño de la descarga : 405.42 MiB

  • Tamaño del conjunto de datos : 15.09 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,516
'test' 1,617
'train' 2,036
'validation' 5,747

common_voice/nl

  • Descripción de la configuración : Código de idioma: nl

  • Tamaño de descarga : 1.62 GiB

  • Tamaño del conjunto de datos : 90.20 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,938
'test' 5,708
'train' 9,460
'validation' 52,488

voz_común/o

  • Descripción de configuración : Código de idioma: o

  • Tamaño de la descarga : 189.85 MiB

  • Tamaño del conjunto de datos : 1.97 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Descripción de la configuración : Código de idioma: pa-IN

  • Tamaño de la descarga : 66.52 MiB

  • Tamaño del conjunto de datos : 1.03 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 44
'test' 116
'train' 211
'validation' 371

voz_común/pl

  • Descripción de configuración : Código de idioma: pl

  • Tamaño de descarga : 3.29 GiB

  • Tamaño del conjunto de datos : 141.06 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

voz_común/pt

  • Descripción de configuración : Código de idioma: pt

  • Tamaño de descarga : 1.59 GiB

  • Tamaño del conjunto de datos : 75.64 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 4,592
'test' 4,641
'train' 6,514
'validation' 41,584

voz_común/rm-sursilv

  • Descripción de la configuración : Código de idioma: rm-sursilv

  • Tamaño de la descarga : 263.17 MiB

  • Tamaño del conjunto de datos : 12.31 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,205
'test' 1,194
'train' 1,384
'validation' 3,783

common_voice/rm-vallader

  • Descripción de la configuración : Código de idioma: rm-vallader

  • Tamaño de la descarga : 103.11 MiB

  • Tamaño del conjunto de datos : 4.89 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 357
'test' 378
'train' 574
'validation' 1,316

voz_común/ro

  • Descripción de la configuración : Código de idioma: ro

  • Tamaño de la descarga : 249.84 MiB

  • Tamaño del conjunto de datos : 14.54 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 858
'test' 1,778
'train' 3,399
'validation' 6,039

voz_común/ru

  • Descripción de la configuración : Código de idioma: ru

  • Tamaño de descarga : 3.40 GiB

  • Tamaño del conjunto de datos : 175.04 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 7,963
'test' 8,007
'train' 15,481
'validation' 74,256

voz_común/rw

  • Descripción de la configuración : Código de idioma: rw

  • Tamaño de descarga : 39.62 GiB

  • Tamaño del conjunto de datos : 2.18 TiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 15,032
'test' 15,724
'train' 515,197
'validation' 832,929

voz_común/sah

  • Descripción de la configuración : Código de idioma: sah

  • Tamaño de la descarga : 172.85 MiB

  • Tamaño del conjunto de datos : 9.42 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 405
'test' 757
'train' 1,442
'validation' 2,606

voz_común/sl

  • Descripción de configuración : Código de idioma: sl

  • Tamaño de la descarga : 212.43 MiB

  • Tamaño del conjunto de datos : 9.67 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 556
'test' 881
'train' 2,038
'validation' 4,669

voz_común/sv-SE

  • Descripción de la configuración : Código de idioma: sv-SE

  • Tamaño de la descarga : 401.91 MiB

  • Tamaño del conjunto de datos : 18.27 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,019
'test' 2,027
'train' 2,331
'validation' 12,552

voz_común/ta

  • Descripción de configuración : Código de idioma: ta

  • Tamaño de la descarga : 648.28 MiB

  • Tamaño del conjunto de datos : 24.06 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,779
'test' 1,781
'train' 2,009
'validation' 12,652

voz_comun/th

  • Descripción de la configuración : Código de idioma: th

  • Tamaño de la descarga : 325.49 MiB

  • Tamaño del conjunto de datos : 18.32 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

voz_común/tr

  • Descripción de configuración : Código de idioma: tr

  • Tamaño de la descarga : 592.09 MiB

  • Tamaño del conjunto de datos : 28.21 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18,685

voz_común/tt

  • Descripción de configuración : Código de idioma: tt

  • Tamaño de la descarga : 741.15 MiB

  • Tamaño del conjunto de datos : 46.85 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25,781

common_voice/es

  • Descripción de la configuración : Código de idioma: uk

  • Tamaño de descarga : 1.13 GiB

  • Tamaño del conjunto de datos : 49.66 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 3,236
'test' 3,235
'train' 4,035
'validation' 22,337

voz_común/vi

  • Descripción de la configuración : Código de idioma: vi

  • Tamaño de la descarga : 49.52 MiB

  • Tamaño del conjunto de datos : 1.47 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 200
'test' 198
'train' 221
'validation' 619

voz_común/voto

  • Descripción de la configuración : Código de idioma: vot

  • Tamaño de la descarga : 7.43 MiB

  • Tamaño del conjunto de datos : 11.39 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 3
'validation' 3

common_voice/zh-CN

  • Descripción de configuración : Código de idioma: zh-CN

  • Tamaño de descarga : 2.03 GiB

  • Tamaño del conjunto de datos : 122.54 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 8,743
'test' 8,760
'train' 18,541
'validation' 36,405

voz_común/zh-HK

  • Descripción de la configuración : Código de idioma: zh-HK

  • Tamaño de descarga : 2.58 GiB

  • Tamaño del conjunto de datos : 78.80 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41,835

voz_común/zh-TW

  • Descripción de configuración : Código de idioma: zh-TW

  • Tamaño de descarga : 2.03 GiB

  • Tamaño del conjunto de datos : 69.06 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61,232