קול משותף

  • תיאור :

ערכת נתונים קולית נפוצה של Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מִבטָא טֶקסט חוּט מבטא של הרמקול, ראה https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
גיל טֶקסט חוּט דלי הגיל של הדובר (למשל בני נוער או שנות הארבעים), ראה https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
מזהה_לקוח טֶקסט חוּט UUID גיבוב של משתמש נתון
הצבעות נגד סקלר int32 מספר האנשים שאמרו שהאודיו אינו תואם לטקסט
מִין ClassLabel int64 מגדר הדובר
מִגזָר טֶקסט חוּט אם המשפט שייך לפלח מערך נתונים מותאם אישית, הוא יופיע כאן
משפט טֶקסט חוּט תמלול כביכול של האודיו
הצבעות בעד סקלר int32 מספר האנשים שאמרו שהאודיו תואם לטקסט
קוֹל שֶׁמַע (אף אחד,) int64

common_voice/he (תצורת ברירת מחדל)

  • תיאור תצורה : קוד שפה: en

  • גודל הורדה : 56.45 GiB

  • גודל מערך נתונים : 2.79 TiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

משותף_קול/אב

  • תיאור תצורה : קוד שפה: ab

  • גודל הורדה : 39.14 MiB

  • גודל ערכת נתונים : 133.24 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • תיאור תצורה : קוד שפה: ar

  • גודל הורדה : 1.64 GiB

  • גודל מערך נתונים : 67.16 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

משותף_קול/כמו

  • תיאור תצורה : קוד שפה: as

  • גודל הורדה : 21.20 MiB

  • גודל מערך נתונים : 1.65 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 124
'test' 110
'train' 270
'validation' 504

משותף_קול/בר

  • תיאור תצורה : קוד שפה: br

  • גודל הורדה : 443.72 MiB

  • גודל מערך נתונים : 13.46 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,997
'test' 2,087
'train' 2,780
'validation' 8,560

משותף_קול/ca

  • תיאור תצורה : קוד שפה: כ

  • גודל הורדה : 19.32 GiB

  • גודל מערך נתונים : 1.19 TiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 15,724
'test' 15,724
'train' 285,584
'validation' 416,701

common_voice/cnh

  • תיאור תצורה : קוד שפה: cnh

  • גודל הורדה : 153.86 MiB

  • גודל מערך נתונים : 5.12 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • תיאור תצורה : קוד שפה: cs

  • גודל הורדה : 1.18 GiB

  • גודל מערך נתונים : 56.89 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431

common_voice/cv

  • תיאור תצורה : קוד שפה: cv

  • גודל הורדה : 418.98 MiB

  • גודל מערך נתונים : 8.10 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 818
'test' 788
'train' 931
'validation' 3,496

common_voice/cy

  • תיאור תצורה : קוד שפה: cy

  • גודל הורדה : 3.20 GiB

  • גודל מערך נתונים : 128.68 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 4,776
'test' 4,820
'train' 6,839
'validation' 72,984

common_voice/de

  • תיאור תצורה : קוד שפה: de

  • גודל הורדה : 21.68 GiB

  • גודל מערך נתונים : 1.29 TiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

common_voice/dv

  • תיאור תצורה : קוד שפה: dv

  • גודל הורדה : 515.45 MiB

  • גודל ערכת נתונים : 31.59 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,077
'test' 2,202
'train' 2,680
'validation' 11,866

משותף_קול/אל

  • תיאור תצורה : קוד שפה: el

  • גודל הורדה : 363.89 MiB

  • גודל מערך נתונים : 14.62 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5,996

common_voice/eo

  • תיאור תצורה : קוד שפה: eo

  • גודל הורדה : 2.69 GiB

  • גודל מערך נתונים : 167.14 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 8,987
'test' 8,969
'train' 19,587
'validation' 58,094

משותף_קול/ים

  • תיאור תצורה : קוד שפה: es

  • גודל הורדה : 15.08 GiB

  • גודל ערכת נתונים : 684.66 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • תיאור תצורה : קוד שפה: et

  • גודל הורדה : 731.63 MiB

  • גודל מערך נתונים : 37.95 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10,683

common_voice/eu

  • תיאור תצורה : קוד שפה: eu

  • גודל הורדה : 3.41 GiB

  • גודל ערכת נתונים : 127.60 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 5,172
'test' 5,172
'train' 7,505
'validation' 63,009

משותף_קול/פא

  • תיאור תצורה : קוד שפה: fa

  • גודל הורדה : 8.27 GiB

  • גודל מערך נתונים : 328.61 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251,659

common_voice/fi

  • תיאור תצורה : קוד שפה: fi

  • גודל הורדה : 47.57 MiB

  • גודל מערך נתונים : 3.41 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 415
'test' 428
'train' 460
'validation' 1,305

common_voice/fr

  • תיאור תצורה : קוד שפה: fr

  • גודל הורדה : 17.82 GiB

  • גודל מערך נתונים : 1.17 TiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 15,763
'test' 15,763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • תיאור תצורה : קוד שפה: fy-NL

  • גודל הורדה : 1.15 GiB

  • גודל מערך נתונים : 29.93 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,790
'test' 3,020
'train' 3,927
'validation' 10,495

common_voice/ga-IE

  • תיאור תצורה : קוד שפה: ga-IE

  • גודל הורדה : 149.30 MiB

  • גודל מערך נתונים : 5.11 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 497
'test' 506
'train' 541
'validation' 3,352

קול משותף/היי

  • תיאור תצורה : קוד שפה: היי

  • גודל הורדה : 20.43 MiB

  • גודל מערך נתונים : 1.15 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 135
'test' 127
'train' 157
'validation' 419

משותף_קול/hsb

  • תיאור תצורה : קוד שפה: hsb

  • גודל הורדה : 75.69 MiB

  • גודל ערכת נתונים : 5.67 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 172
'test' 387
'train' 808
'validation' 1,367

common_voice/hu

  • תיאור תצורה : קוד שפה: hu

  • גודל הורדה : 231.51 MiB

  • גודל מערך נתונים : 17.07 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,434
'test' 1,649
'train' 3,348
'validation' 6,457

common_voice/ia

  • תיאור תצורה : קוד שפה: ia

  • גודל הורדה : 216.01 MiB

  • גודל מערך נתונים : 14.99 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,601
'test' 899
'train' 3,477
'validation' 5,978

משותף_קול/מזהה

  • תיאור תצורה : קוד שפה: מזהה

  • גודל הורדה : 453.87 MiB

  • גודל ערכת נתונים : 17.20 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8,696

קול משותף/זה

  • תיאור תצורה : קוד שפה: it

  • גודל הורדה : 5.20 GiB

  • גודל מערך נתונים : 316.38 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 12,928
'test' 12,928
'train' 58,015
'validation' 102,579

common_voice/ja

  • תיאור תצורה : קוד שפה: ja

  • גודל הורדה : 145.80 MiB

  • גודל ערכת נתונים : 6.83 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 586
'test' 632
'train' 722
'validation' 3,072

משותף_קול/קא

  • תיאור תצורה : קוד שפה: ka

  • גודל הורדה : 99.45 MiB

  • גודל מערך נתונים : 7.51 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 527
'test' 656
'train' 1,058
'validation' 2,275

משותף_קול/קאב

  • תיאור תצורה : קוד שפה: kab

  • גודל הורדה : 15.99 GiB

  • גודל מערך נתונים : 718.51 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 14,622
'test' 14,622
'train' 120,530
'validation' 573,718

common_voice/ky

  • תיאור תצורה : קוד שפה: ky

  • גודל הורדה : 552.60 MiB

  • גודל מערך נתונים : 18.70 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,511
'test' 1,503
'train' 1,955
'validation' 9,236

common_voice/lg

  • תיאור תצורה : קוד שפה: lg

  • גודל הורדה : 198.55 MiB

  • גודל מערך נתונים : 6.65 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 384
'test' 584
'train' 1,250
'validation' 2,220

common_voice/lt

  • תיאור תצורה : קוד שפה: lt

  • גודל הורדה : 129.03 MiB

  • גודל מערך נתונים : 4.79 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • תיאור תצורה : קוד שפה: lv

  • גודל הורדה : 198.66 MiB

  • גודל מערך נתונים : 13.07 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,002
'test' 1,882
'train' 2,552
'validation' 6,444

משותף_קול/נ

  • תיאור תצורה : קוד שפה: mn

  • גודל הורדה : 463.84 MiB

  • גודל מערך נתונים : 22.09 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

common_voice/mt

  • תיאור תצורה : קוד שפה: mt

  • גודל הורדה : 405.42 MiB

  • גודל מערך נתונים : 15.09 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,516
'test' 1,617
'train' 2,036
'validation' 5,747

common_voice/nl

  • תיאור תצורה : קוד שפה: nl

  • גודל הורדה : 1.62 GiB

  • גודל מערך נתונים : 90.20 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 4,938
'test' 5,708
'train' 9,460
'validation' 52,488

משותף_קול/או

  • תיאור תצורה : קוד שפה: או

  • גודל הורדה : 189.85 MiB

  • גודל מערך נתונים : 1.97 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • תיאור תצורה : קוד שפה: pa-IN

  • גודל הורדה : 66.52 MiB

  • גודל מערך נתונים : 1.03 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 44
'test' 116
'train' 211
'validation' 371

משותף_קול/פל

  • תיאור תצורה : קוד שפה: pl

  • גודל הורדה : 3.29 GiB

  • גודל מערך נתונים : 141.06 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

common_voice/pt

  • תיאור תצורה : קוד שפה: pt

  • גודל הורדה : 1.59 GiB

  • גודל מערך נתונים : 75.64 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 4,592
'test' 4,641
'train' 6,514
'validation' 41,584

common_voice/rm-sursilv

  • תיאור תצורה : קוד שפה: rm-sursilv

  • גודל הורדה : 263.17 MiB

  • גודל מערך נתונים : 12.31 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,205
'test' 1,194
'train' 1,384
'validation' 3,783

common_voice/rm-vallader

  • תיאור תצורה : קוד שפה: rm-vallader

  • גודל הורדה : 103.11 MiB

  • גודל מערך נתונים : 4.89 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 357
'test' 378
'train' 574
'validation' 1,316

common_voice/ro

  • תיאור תצורה : קוד שפה: ro

  • גודל הורדה : 249.84 MiB

  • גודל מערך נתונים : 14.54 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 858
'test' 1,778
'train' 3,399
'validation' 6,039

common_voice/ru

  • תיאור תצורה : קוד שפה: ru

  • גודל הורדה : 3.40 GiB

  • גודל מערך נתונים : 175.04 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 7,963
'test' 8,007
'train' 15,481
'validation' 74,256

common_voice/rw

  • תיאור תצורה : קוד שפה: rw

  • גודל הורדה : 39.62 GiB

  • גודל מערך נתונים : 2.18 TiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 15,032
'test' 15,724
'train' 515,197
'validation' 832,929

קול משותף/סח

  • תיאור תצורה : קוד שפה: sah

  • גודל הורדה : 172.85 MiB

  • גודל מערך נתונים : 9.42 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 405
'test' 757
'train' 1,442
'validation' 2,606

common_voice/sl

  • תיאור תצורה : קוד שפה: sl

  • גודל הורדה : 212.43 MiB

  • גודל מערך נתונים : 9.67 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 556
'test' 881
'train' 2,038
'validation' 4,669

common_voice/sv-SE

  • תיאור תצורה : קוד שפה: sv-SE

  • גודל הורדה : 401.91 MiB

  • גודל מערך נתונים : 18.27 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,019
'test' 2,027
'train' 2,331
'validation' 12,552

common_voice/ta

  • תיאור תצורה : קוד שפה: ta

  • גודל הורדה : 648.28 MiB

  • גודל מערך נתונים : 24.06 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,779
'test' 1,781
'train' 2,009
'validation' 12,652

משותף_קול/ה

  • תיאור תצורה : קוד שפה: ה

  • גודל הורדה : 325.49 MiB

  • גודל מערך נתונים : 18.32 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

common_voice/tr

  • תיאור תצורה : קוד שפה: tr

  • גודל הורדה : 592.09 MiB

  • גודל מערך נתונים : 28.21 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18,685

common_voice/tt

  • תיאור תצורה : קוד שפה: tt

  • גודל הורדה : 741.15 MiB

  • גודל מערך נתונים : 46.85 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25,781

common_voice/uk

  • תיאור תצורה : קוד שפה: uk

  • גודל הורדה : 1.13 GiB

  • גודל מערך נתונים : 49.66 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 3,236
'test' 3,235
'train' 4,035
'validation' 22,337

common_voice/vi

  • תיאור תצורה : קוד שפה: vi

  • גודל הורדה : 49.52 MiB

  • גודל מערך נתונים : 1.47 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 200
'test' 198
'train' 221
'validation' 619

קול משותף/הצבעה

  • תיאור תצורה : קוד שפה: vot

  • גודל הורדה : 7.43 MiB

  • גודל מערך נתונים : 11.39 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 3
'validation' 3

common_voice/zh-CN

  • תיאור תצורה : קוד שפה: zh-CN

  • גודל הורדה : 2.03 GiB

  • גודל מערך נתונים : 122.54 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 8,743
'test' 8,760
'train' 18,541
'validation' 36,405

common_voice/zh-HK

  • תיאור תצורה : קוד שפה: zh-HK

  • גודל הורדה : 2.58 GiB

  • גודל מערך נתונים : 78.80 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41,835

common_voice/zh-TW

  • תיאור תצורה : קוד שפה: zh-TW

  • גודל הורדה : 2.03 GiB

  • גודל מערך נתונים : 69.06 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61,232