common_voice

  • Deskripsi :

Kumpulan Data Suara Umum Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
aksen Teks rangkaian Aksen pembicara, lihat https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
usia Teks rangkaian Kelompok usia pembicara (misalnya remaja, atau empat puluhan), lihat https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
client_id Teks rangkaian UUID yang di-hash dari pengguna tertentu
suara negatif Skalar int32 Jumlah orang yang mengatakan audio tidak cocok dengan teks
jenis kelamin LabelKelas int64 Jenis kelamin pembicara
segmen Teks rangkaian Jika kalimat milik segmen kumpulan data khusus, itu akan dicantumkan di sini
kalimat Teks rangkaian Seharusnya transkripsi audio
suara positif Skalar int32 Jumlah orang yang mengatakan bahwa audio cocok dengan teks
suara Audio (Tidak ada,) int64

common_voice/en (konfigurasi default)

  • Deskripsi konfigurasi : Kode Bahasa: en

  • Ukuran unduhan : 56.45 GiB

  • Ukuran dataset : 2.79 TiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 16.164
'test' 16.164
'train' 564.337
'validation' 1.224.864

common_voice/ab

  • Deskripsi konfigurasi : Kode Bahasa: ab

  • Ukuran unduhan : 39.14 MiB

  • Ukuran dataset : 133.24 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • Deskripsi konfigurasi : Kode Bahasa: ar

  • Ukuran unduhan : 1.64 GiB

  • Ukuran dataset : 67.16 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 7.517
'test' 7.622
'train' 14.227
'validation' 43.291

common_voice/as

  • Deskripsi konfigurasi : Kode Bahasa: as

  • Ukuran unduhan : 21.20 MiB

  • Ukuran dataset : 1.65 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • Deskripsi konfigurasi : Kode Bahasa: br

  • Ukuran unduhan : 443.72 MiB

  • Ukuran dataset : 13.46 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.997
'test' 2.087
'train' 2.780
'validation' 8.560

common_voice/ca

  • Deskripsi konfigurasi : Kode Bahasa: ca

  • Ukuran unduhan : 19.32 GiB

  • Ukuran dataset : 1.19 TiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 15.724
'test' 15.724
'train' 285.584
'validation' 416.701

common_voice/cnh

  • Deskripsi konfigurasi : Kode Bahasa: cnh

  • Ukuran unduhan : 153.86 MiB

  • Ukuran dataset : 5.12 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 756
'test' 752
'train' 807
'validation' 2.432

common_voice/cs

  • Deskripsi konfigurasi : Kode Bahasa: cs

  • Ukuran unduhan : 1.18 GiB

  • Ukuran dataset : 56.89 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 4.118
'test' 4.144
'train' 5.655
'validation' 30.431

common_voice/cv

  • Deskripsi konfigurasi : Kode Bahasa: cv

  • Ukuran unduhan : 418.98 MiB

  • Ukuran dataset : 8.10 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 818
'test' 788
'train' 931
'validation' 3.496

common_voice/cy

  • Deskripsi konfigurasi : Kode Bahasa: cy

  • Ukuran unduhan : 3.20 GiB

  • Ukuran dataset : 128.68 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 4.776
'test' 4.820
'train' 6.839
'validation' 72.984

common_voice/de

  • Deskripsi konfigurasi : Kode Bahasa: de

  • Ukuran unduhan : 21.68 GiB

  • Ukuran dataset : 1.29 TiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 15.588
'test' 15.588
'train' 246.525
'validation' 565.186

common_voice/dv

  • Deskripsi konfigurasi : Kode Bahasa: dv

  • Ukuran unduhan : 515.45 MiB

  • Ukuran dataset : 31.59 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.077
'test' 2.202
'train' 2.680
'validation' 11.866

common_voice/el

  • Deskripsi konfigurasi : Kode Bahasa: el

  • Ukuran unduhan : 363.89 MiB

  • Ukuran dataset : 14.62 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.401
'test' 1.522
'train' 2.316
'validation' 5.996

common_voice/eo

  • Deskripsi konfigurasi : Kode Bahasa: eo

  • Ukuran unduhan : 2.69 GiB

  • Ukuran dataset : 167.14 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 8.987
'test' 8.969
'train' 19.587
'validation' 58.094

common_voice/es

  • Deskripsi konfigurasi : Kode Bahasa: es

  • Ukuran unduhan : 15.08 GiB

  • Ukuran dataset : 684.66 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 15.089
'test' 15.089
'train' 161.813
'validation' 236.314

common_voice/et

  • Deskripsi konfigurasi : Kode Bahasa: et

  • Ukuran unduhan : 731.63 MiB

  • Ukuran dataset : 37.95 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.507
'test' 2.509
'train' 2.966
'validation' 10.683

common_voice/eu

  • Deskripsi konfigurasi : Kode Bahasa: eu

  • Ukuran unduhan : 3.41 GiB

  • Ukuran dataset : 127.60 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 5.172
'test' 5.172
'train' 7.505
'validation' 63.009

common_voice/fa

  • Deskripsi konfigurasi : Kode Bahasa: fa

  • Ukuran unduhan : 8.27 GiB

  • Ukuran dataset : 328.61 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 5.213
'test' 5.213
'train' 7.593
'validation' 251.659

common_voice/fi

  • Deskripsi konfigurasi : Kode Bahasa: fi

  • Ukuran unduhan : 47.57 MiB

  • Ukuran dataset : 3.41 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 415
'test' 428
'train' 460
'validation' 1.305

common_voice/fr

  • Deskripsi konfigurasi : Kode Bahasa: fr

  • Ukuran unduhan : 17.82 GiB

  • Ukuran dataset : 1.17 TiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 15.763
'test' 15.763
'train' 298.982
'validation' 461.004

common_voice/fy-NL

  • Deskripsi konfigurasi : Kode Bahasa: fy-NL

  • Ukuran unduhan : 1.15 GiB

  • Ukuran dataset : 29.93 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.790
'test' 3.020
'train' 3.927
'validation' 10.495

common_voice/ga-IE

  • Deskripsi konfigurasi : Kode Bahasa: ga-IE

  • Ukuran unduhan : 149.30 MiB

  • Ukuran dataset : 5.11 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 497
'test' 506
'train' 541
'validation' 3.352

common_voice/hai

  • Deskripsi konfigurasi : Kode Bahasa: hi

  • Ukuran unduhan : 20.43 MiB

  • Ukuran dataset : 1.15 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • Deskripsi konfigurasi : Kode Bahasa: hsb

  • Ukuran unduhan : 75.69 MiB

  • Ukuran dataset : 5.67 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 172
'test' 387
'train' 808
'validation' 1.367

common_voice/hu

  • Deskripsi konfigurasi : Kode Bahasa: hu

  • Ukuran unduhan : 231.51 MiB

  • Ukuran dataset : 17.07 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.434
'test' 1.649
'train' 3.348
'validation' 6.457

common_voice/ia

  • Deskripsi konfigurasi : Kode Bahasa: ia

  • Ukuran unduhan : 216.01 MiB

  • Ukuran dataset : 14.99 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.601
'test' 899
'train' 3.477
'validation' 5.978

common_voice/id

  • Deskripsi konfigurasi : Kode Bahasa: id

  • Ukuran unduhan : 453.87 MiB

  • Ukuran dataset : 17.20 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.835
'test' 1.844
'train' 2.130
'validation' 8.696

common_voice/itu

  • Deskripsi konfigurasi : Kode Bahasa: it

  • Ukuran unduhan : 5.20 GiB

  • Ukuran dataset : 316.38 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 12.928
'test' 12.928
'train' 58.015
'validation' 102.579

common_voice/ja

  • Deskripsi konfigurasi : Kode Bahasa: ja

  • Ukuran unduhan : 145.80 MiB

  • Ukuran dataset : 6.83 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 586
'test' 632
'train' 722
'validation' 3.072

common_voice/ka

  • Deskripsi konfigurasi : Kode Bahasa: ka

  • Ukuran unduhan : 99.45 MiB

  • Ukuran dataset : 7.51 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 527
'test' 656
'train' 1.058
'validation' 2.275

common_voice/kab

  • Deskripsi konfigurasi : Kode Bahasa: kab

  • Ukuran unduhan : 15.99 GiB

  • Ukuran dataset : 718.51 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 14.622
'test' 14.622
'train' 120.530
'validation' 573.718

common_voice/ky

  • Deskripsi konfigurasi : Kode Bahasa: ky

  • Ukuran unduhan : 552.60 MiB

  • Ukuran dataset : 18.70 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.511
'test' 1.503
'train' 1.955
'validation' 9.236

common_voice/lg

  • Deskripsi konfigurasi : Kode Bahasa: lg

  • Ukuran unduhan : 198.55 MiB

  • Ukuran dataset : 6.65 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 384
'test' 584
'train' 1.250
'validation' 2.220

common_voice/lt

  • Deskripsi konfigurasi : Kode Bahasa: lt

  • Ukuran unduhan : 129.03 MiB

  • Ukuran dataset : 4.79 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 244
'test' 466
'train' 931
'validation' 1.644

common_voice/lv

  • Deskripsi konfigurasi : Kode Bahasa: lv

  • Ukuran unduhan : 198.66 MiB

  • Ukuran dataset : 13.07 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.002
'test' 1.882
'train' 2.552
'validation' 6.444

common_voice/mn

  • Deskripsi konfigurasi : Kode Bahasa: mn

  • Ukuran unduhan : 463.84 MiB

  • Ukuran dataset : 22.09 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.837
'test' 1.862
'train' 2.183
'validation' 7.487

common_voice/mt

  • Deskripsi konfigurasi : Kode Bahasa: mt

  • Ukuran unduhan : 405.42 MiB

  • Ukuran dataset : 15.09 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.516
'test' 1.617
'train' 2.036
'validation' 5.747

common_voice/nl

  • Deskripsi konfigurasi : Kode Bahasa: nl

  • Ukuran unduhan : 1.62 GiB

  • Ukuran dataset : 90.20 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 4.938
'test' 5.708
'train' 9.460
'validation' 52.488

common_voice/atau

  • Deskripsi konfigurasi : Kode Bahasa: atau

  • Ukuran unduhan : 189.85 MiB

  • Ukuran dataset : 1.97 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Deskripsi konfigurasi : Kode Bahasa: pa-IN

  • Ukuran unduhan : 66.52 MiB

  • Ukuran dataset : 1.03 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • Deskripsi konfigurasi : Kode Bahasa: pl

  • Ukuran unduhan : 3.29 GiB

  • Ukuran dataset : 141.06 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 5.153
'test' 5.153
'train' 7.468
'validation' 90.791

common_voice/pt

  • Deskripsi konfigurasi : Kode Bahasa: pt

  • Ukuran unduhan : 1.59 GiB

  • Ukuran dataset : 75.64 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 4.592
'test' 4.641
'train' 6.514
'validation' 41.584

common_voice/rm-sursilv

  • Deskripsi konfigurasi : Kode Bahasa: rm-sursilv

  • Ukuran unduhan : 263.17 MiB

  • Ukuran dataset : 12.31 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.205
'test' 1.194
'train' 1.384
'validation' 3.783

common_voice/rm-vallader

  • Deskripsi konfigurasi : Kode Bahasa: rm-vallader

  • Ukuran unduhan : 103.11 MiB

  • Ukuran dataset : 4.89 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 357
'test' 378
'train' 574
'validation' 1.316

common_voice/ro

  • Deskripsi konfigurasi : Kode Bahasa: ro

  • Ukuran unduhan : 249.84 MiB

  • Ukuran dataset : 14.54 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 858
'test' 1.778
'train' 3.399
'validation' 6.039

common_voice/ru

  • Deskripsi konfigurasi : Kode Bahasa: ru

  • Ukuran unduhan : 3.40 GiB

  • Ukuran dataset : 175.04 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 7.963
'test' 8.007
'train' 15.481
'validation' 74.256

common_voice/rw

  • Deskripsi konfigurasi : Kode Bahasa: rw

  • Ukuran unduhan : 39.62 GiB

  • Ukuran dataset : 2.18 TiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 15.032
'test' 15.724
'train' 515.197
'validation' 832.929

common_voice/sah

  • Deskripsi konfigurasi : Kode Bahasa: sah

  • Ukuran unduhan : 172.85 MiB

  • Ukuran dataset : 9.42 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 405
'test' 757
'train' 1.442
'validation' 2.606

common_voice/sl

  • Deskripsi konfigurasi : Kode Bahasa: sl

  • Ukuran unduhan : 212.43 MiB

  • Ukuran dataset : 9.67 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 556
'test' 881
'train' 2.038
'validation' 4.669

common_voice/sv-SE

  • Deskripsi konfigurasi : Kode Bahasa: sv-SE

  • Ukuran unduhan : 401.91 MiB

  • Ukuran dataset : 18.27 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.019
'test' 2.027
'train' 2.331
'validation' 12.552

common_voice/ta

  • Deskripsi konfigurasi : Kode Bahasa: ta

  • Ukuran unduhan : 648.28 MiB

  • Ukuran dataset : 24.06 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.779
'test' 1.781
'train' 2.009
'validation' 12.652

common_voice/th

  • Deskripsi konfigurasi : Kode bahasa: th

  • Ukuran unduhan : 325.49 MiB

  • Ukuran dataset : 18.32 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.922
'test' 2.188
'train' 2.917
'validation' 7.028

common_voice/tr

  • Deskripsi konfigurasi : Kode Bahasa: tr

  • Ukuran unduhan : 592.09 MiB

  • Ukuran dataset : 28.21 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 1.647
'test' 1.647
'train' 1.831
'validation' 18.685

common_voice/tt

  • Deskripsi konfigurasi : Kode Bahasa: tt

  • Ukuran unduhan : 741.15 MiB

  • Ukuran dataset : 46.85 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.127
'test' 4.485
'train' 11.211
'validation' 25.781

common_voice/uk

  • Deskripsi konfigurasi : Kode Bahasa: uk

  • Ukuran unduhan : 1.13 GiB

  • Ukuran dataset : 49.66 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 3.236
'test' 3.235
'train' 4.035
'validation' 22.337

common_voice/vi

  • Deskripsi konfigurasi : Kode Bahasa: vi

  • Ukuran unduhan : 49.52 MiB

  • Ukuran dataset : 1.47 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/vot

  • Deskripsi konfigurasi : Kode Bahasa: vot

  • Ukuran unduhan : 7.43 MiB

  • Ukuran dataset : 11.39 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 3
'validation' 3

common_voice/zh-CN

  • Deskripsi konfigurasi : Kode Bahasa: zh-CN

  • Ukuran unduhan : 2.03 GiB

  • Ukuran dataset : 122.54 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 8.743
'test' 8.760
'train' 18.541
'validation' 36.405

common_voice/zh-HK

  • Deskripsi konfigurasi : Kode Bahasa: zh-HK

  • Ukuran unduhan : 2.58 GiB

  • Ukuran dataset : 78.80 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 5.172
'test' 5.172
'train' 7.506
'validation' 41.835

common_voice/zh-TW

  • Deskripsi konfigurasi : Kode Bahasa: zh-TW

  • Ukuran unduhan : 2.03 GiB

  • Ukuran dataset : 69.06 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'dev' 2.895
'test' 2.895
'train' 3.507
'validation' 61.232