voz_comum

  • Descrição :

Conjunto de dados de voz comum da Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
sotaque Texto corda Sotaque do palestrante, consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
idade Texto corda Faixa etária do palestrante (por exemplo, adolescentes ou quarenta anos), consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
ID_do_cliente Texto corda UUID com hash de um determinado usuário
votos negativos Escalar int32 Número de pessoas que disseram que o áudio não corresponde ao texto
gênero ClassLabel int64 Gênero do palestrante
segmento Texto corda Se a frase pertencer a um segmento de conjunto de dados personalizado, ela será listada aqui
sentença Texto corda Suposta transcrição do áudio
votos positivos Escalar int32 Número de pessoas que disseram que o áudio corresponde ao texto
voz Áudio (Nenhum,) int64

common_voice/en (configuração padrão)

  • Descrição da configuração : Código do idioma: en

  • Tamanho do download : 56.45 GiB

  • Tamanho do conjunto de dados : 2.79 TiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 16.164
'test' 16.164
'train' 564.337
'validation' 1.224.864

voz_comum/ab

  • Descrição da configuração : Código do idioma: ab

  • Tamanho do download : 39.14 MiB

  • Tamanho do conjunto de dados : 133.24 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 9
'train' 22
'validation' 31

voz_comum/ar

  • Descrição da configuração : Código do idioma: ar

  • Tamanho do download : 1.64 GiB

  • Tamanho do conjunto de dados : 67.16 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 7.517
'test' 7.622
'train' 14.227
'validation' 43.291

voz_comum/as

  • Descrição da configuração : Código do idioma: como

  • Tamanho do download : 21.20 MiB

  • Tamanho do conjunto de dados : 1.65 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • Descrição da configuração : Código do idioma: br

  • Tamanho do download : 443.72 MiB

  • Tamanho do conjunto de dados : 13.46 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.997
'test' 2.087
'train' 2.780
'validation' 8.560

common_voice/ca

  • Descrição da configuração : Código do idioma: ca

  • Tamanho do download : 19.32 GiB

  • Tamanho do conjunto de dados : 1.19 TiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 15.724
'test' 15.724
'train' 285.584
'validation' 416.701

voz_comum/cnh

  • Descrição da configuração : Código do idioma: cnh

  • Tamanho do download : 153.86 MiB

  • Tamanho do conjunto de dados : 5.12 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 756
'test' 752
'train' 807
'validation' 2.432

voz_comum/cs

  • Descrição da configuração : Código do idioma: cs

  • Tamanho do download : 1.18 GiB

  • Tamanho do conjunto de dados : 56.89 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 4.118
'test' 4.144
'train' 5.655
'validation' 30.431

voz_comum/cv

  • Descrição da configuração : Código do idioma: cv

  • Tamanho do download : 418.98 MiB

  • Tamanho do conjunto de dados : 8.10 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 818
'test' 788
'train' 931
'validation' 3.496

voz_comum/cy

  • Descrição da configuração : Código do idioma: cy

  • Tamanho do download : 3.20 GiB

  • Tamanho do conjunto de dados : 128.68 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 4.776
'test' 4.820
'train' 6.839
'validation' 72.984

voz_comum/de

  • Descrição da configuração : Código do idioma: de

  • Tamanho do download : 21.68 GiB

  • Tamanho do conjunto de dados : 1.29 TiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 15.588
'test' 15.588
'train' 246.525
'validation' 565.186

voz_comum/dv

  • Descrição da configuração : Código do idioma: dv

  • Tamanho do download : 515.45 MiB

  • Tamanho do conjunto de dados : 31.59 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.077
'test' 2.202
'train' 2.680
'validation' 11.866

voz_comum/el

  • Descrição da configuração : Código do idioma: el

  • Tamanho do download : 363.89 MiB

  • Tamanho do conjunto de dados : 14.62 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.401
'test' 1.522
'train' 2.316
'validation' 5.996

voz_comum/eo

  • Descrição da configuração : Código do idioma: eo

  • Tamanho do download : 2.69 GiB

  • Tamanho do conjunto de dados : 167.14 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 8.987
'test' 8.969
'train' 19.587
'validation' 58.094

voz_comum/es

  • Descrição da configuração : Código do idioma: es

  • Tamanho do download : 15.08 GiB

  • Tamanho do conjunto de dados : 684.66 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 15.089
'test' 15.089
'train' 161.813
'validation' 236.314

common_voice/et

  • Descrição da configuração : Código do idioma: et

  • Tamanho do download : 731.63 MiB

  • Tamanho do conjunto de dados : 37.95 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.507
'test' 2.509
'train' 2.966
'validation' 10.683

common_voice/eu

  • Descrição da configuração : Código do idioma: eu

  • Tamanho do download : 3.41 GiB

  • Tamanho do conjunto de dados : 127.60 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 5.172
'test' 5.172
'train' 7.505
'validation' 63.009

common_voice/fa

  • Descrição da configuração : Código do idioma: fa

  • Tamanho do download : 8.27 GiB

  • Tamanho do conjunto de dados : 328.61 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 5.213
'test' 5.213
'train' 7.593
'validation' 251.659

voz_comum/fi

  • Descrição da configuração : Código do idioma: fi

  • Tamanho do download : 47.57 MiB

  • Tamanho do conjunto de dados : 3.41 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 415
'test' 428
'train' 460
'validation' 1.305

common_voice/fr

  • Descrição da configuração : Código do idioma: fr

  • Tamanho do download : 17.82 GiB

  • Tamanho do conjunto de dados : 1.17 TiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 15.763
'test' 15.763
'train' 298.982
'validation' 461.004

common_voice/fy-NL

  • Descrição da configuração : Código do idioma: fy-NL

  • Tamanho do download : 1.15 GiB

  • Tamanho do conjunto de dados : 29.93 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.790
'test' 3.020
'train' 3.927
'validation' 10.495

common_voice/ga-IE

  • Descrição da configuração : Código do idioma: ga-IE

  • Tamanho do download : 149.30 MiB

  • Tamanho do conjunto de dados : 5.11 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 497
'test' 506
'train' 541
'validation' 3.352

voz_comum/oi

  • Descrição da configuração : Código do idioma: oi

  • Tamanho do download : 20.43 MiB

  • Tamanho do conjunto de dados : 1.15 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 135
'test' 127
'train' 157
'validation' 419

voz_comum/hsb

  • Descrição da configuração : Código do idioma: hsb

  • Tamanho do download : 75.69 MiB

  • Tamanho do conjunto de dados : 5.67 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 172
'test' 387
'train' 808
'validation' 1.367

common_voice/hu

  • Descrição da configuração : Código do idioma: hu

  • Tamanho do download : 231.51 MiB

  • Tamanho do conjunto de dados : 17.07 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.434
'test' 1.649
'train' 3.348
'validation' 6.457

voz_comum/ia

  • Descrição da configuração : Código do idioma: ia

  • Tamanho do download : 216.01 MiB

  • Tamanho do conjunto de dados : 14.99 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.601
'test' 899
'train' 3.477
'validation' 5.978

voz_comum/id

  • Descrição da configuração : Código do idioma: id

  • Tamanho do download : 453.87 MiB

  • Tamanho do conjunto de dados : 17.20 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.835
'test' 1.844
'train' 2.130
'validation' 8.696

voz_comum/it

  • Descrição da configuração : Código do idioma: it

  • Tamanho do download : 5.20 GiB

  • Tamanho do conjunto de dados : 316.38 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 12.928
'test' 12.928
'train' 58.015
'validation' 102.579

common_voice/ja

  • Descrição da configuração : Código do idioma: ja

  • Tamanho do download : 145.80 MiB

  • Tamanho do conjunto de dados : 6.83 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 586
'test' 632
'train' 722
'validation' 3.072

voz_comum/ka

  • Descrição da configuração : Código do idioma: ka

  • Tamanho do download : 99.45 MiB

  • Tamanho do conjunto de dados : 7.51 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 527
'test' 656
'train' 1.058
'validation' 2.275

voz_comum/kab

  • Descrição da configuração : Código do idioma: kab

  • Tamanho do download : 15.99 GiB

  • Tamanho do conjunto de dados : 718.51 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 14.622
'test' 14.622
'train' 120.530
'validation' 573.718

voz_comum/ky

  • Descrição da configuração : Código do idioma: ky

  • Tamanho do download : 552.60 MiB

  • Tamanho do conjunto de dados : 18.70 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.511
'test' 1.503
'train' 1.955
'validation' 9.236

voz_comum/lg

  • Descrição da configuração : Código do idioma: lg

  • Tamanho do download : 198.55 MiB

  • Tamanho do conjunto de dados : 6.65 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 384
'test' 584
'train' 1.250
'validation' 2.220

voz_comum/lt

  • Descrição da configuração : Código do idioma: lt

  • Tamanho do download : 129.03 MiB

  • Tamanho do conjunto de dados : 4.79 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 244
'test' 466
'train' 931
'validation' 1.644

voz_comum/lv

  • Descrição da configuração : Código do idioma: lv

  • Tamanho do download : 198.66 MiB

  • Tamanho do conjunto de dados : 13.07 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.002
'test' 1.882
'train' 2.552
'validation' 6.444

voz_comum/mn

  • Descrição da configuração : Código do idioma: mn

  • Tamanho do download : 463.84 MiB

  • Tamanho do conjunto de dados : 22.09 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.837
'test' 1.862
'train' 2.183
'validation' 7.487

voz_comum/mt

  • Descrição da configuração : Código do idioma: mt

  • Tamanho do download : 405.42 MiB

  • Tamanho do conjunto de dados : 15.09 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.516
'test' 1.617
'train' 2.036
'validation' 5.747

common_voice/nl

  • Descrição da configuração : Código do idioma: nl

  • Tamanho do download : 1.62 GiB

  • Tamanho do conjunto de dados : 90.20 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 4.938
'test' 5.708
'train' 9.460
'validation' 52.488

voz_comum/ou

  • Descrição da configuração : Código do idioma: ou

  • Tamanho do download : 189.85 MiB

  • Tamanho do conjunto de dados : 1.97 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Descrição da configuração : Código do idioma: pa-IN

  • Tamanho do download : 66.52 MiB

  • Tamanho do conjunto de dados : 1.03 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 44
'test' 116
'train' 211
'validation' 371

voz_comum/pl

  • Descrição da configuração : Código do idioma: pl

  • Tamanho do download : 3.29 GiB

  • Tamanho do conjunto de dados : 141.06 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 5.153
'test' 5.153
'train' 7.468
'validation' 90.791

common_voice/pt

  • Descrição da configuração : Código do idioma: pt

  • Tamanho do download : 1.59 GiB

  • Tamanho do conjunto de dados : 75.64 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 4.592
'test' 4.641
'train' 6.514
'validation' 41.584

common_voice/rm-sursilv

  • Descrição da configuração : Código do idioma: rm-sursilv

  • Tamanho do download : 263.17 MiB

  • Tamanho do conjunto de dados : 12.31 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.205
'test' 1.194
'train' 1.384
'validation' 3.783

common_voice/rm-vallader

  • Descrição da configuração : Código do idioma: rm-vallader

  • Tamanho do download : 103.11 MiB

  • Tamanho do conjunto de dados : 4.89 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 357
'test' 378
'train' 574
'validation' 1.316

voz_comum/ro

  • Descrição da configuração : Código do idioma: ro

  • Tamanho do download : 249.84 MiB

  • Tamanho do conjunto de dados : 14.54 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 858
'test' 1.778
'train' 3.399
'validation' 6.039

common_voice/ru

  • Descrição da configuração : Código do idioma: ru

  • Tamanho do download : 3.40 GiB

  • Tamanho do conjunto de dados : 175.04 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 7.963
'test' 8.007
'train' 15.481
'validation' 74.256

voz_comum/rw

  • Descrição da configuração : Código do idioma: rw

  • Tamanho do download : 39.62 GiB

  • Tamanho do conjunto de dados : 2.18 TiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 15.032
'test' 15.724
'train' 515.197
'validation' 832.929

voz_comum/sah

  • Descrição da configuração : Código do idioma: sah

  • Tamanho do download : 172.85 MiB

  • Tamanho do conjunto de dados : 9.42 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 405
'test' 757
'train' 1.442
'validation' 2.606

voz_comum/sl

  • Descrição da configuração : Código do idioma: sl

  • Tamanho do download : 212.43 MiB

  • Tamanho do conjunto de dados : 9.67 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 556
'test' 881
'train' 2.038
'validation' 4.669

voz_comum/sv-SE

  • Descrição da configuração : Código do idioma: sv-SE

  • Tamanho do download : 401.91 MiB

  • Tamanho do conjunto de dados : 18.27 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.019
'test' 2.027
'train' 2.331
'validation' 12.552

voz_comum/ta

  • Descrição da configuração : Código do idioma: ta

  • Tamanho do download : 648.28 MiB

  • Tamanho do conjunto de dados : 24.06 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.779
'test' 1.781
'train' 2.009
'validation' 12.652

voz_comum/th

  • Descrição da configuração : Código do idioma: th

  • Tamanho do download : 325.49 MiB

  • Tamanho do conjunto de dados : 18.32 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.922
'test' 2.188
'train' 2.917
'validation' 7.028

voz_comum/tr

  • Descrição da configuração : Código do idioma: tr

  • Tamanho do download : 592.09 MiB

  • Tamanho do conjunto de dados : 28.21 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 1.647
'test' 1.647
'train' 1.831
'validation' 18.685

voz_comum/tt

  • Descrição da configuração : Código do idioma: tt

  • Tamanho do download : 741.15 MiB

  • Tamanho do conjunto de dados : 46.85 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.127
'test' 4.485
'train' 11.211
'validation' 25.781

common_voice/uk

  • Descrição da configuração : Código do idioma: Reino Unido

  • Tamanho do download : 1.13 GiB

  • Tamanho do conjunto de dados : 49.66 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 3.236
'test' 3.235
'train' 4.035
'validation' 22.337

voz_comum/vi

  • Descrição da configuração : Código do idioma: vi

  • Tamanho do download : 49.52 MiB

  • Tamanho do conjunto de dados : 1.47 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 200
'test' 198
'train' 221
'validation' 619

voz_comum/voto

  • Descrição da configuração : Código do idioma: voto

  • Tamanho do download : 7.43 MiB

  • Tamanho do conjunto de dados : 11.39 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 3
'validation' 3

voz_comum/zh-CN

  • Descrição da configuração : Código do idioma: zh-CN

  • Tamanho do download : 2.03 GiB

  • Tamanho do conjunto de dados : 122.54 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 8.743
'test' 8.760
'train' 18.541
'validation' 36.405

voz_comum/zh-HK

  • Descrição da configuração : Código do idioma: zh-HK

  • Tamanho do download : 2.58 GiB

  • Tamanho do conjunto de dados : 78.80 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 5.172
'test' 5.172
'train' 7.506
'validation' 41.835

voz_comum/zh-TW

  • Descrição da configuração : Código do idioma: zh-TW

  • Tamanho do download : 2.03 GiB

  • Tamanho do conjunto de dados : 69.06 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'dev' 2.895
'test' 2.895
'train' 3.507
'validation' 61.232