الصوت المشترك

  • الوصف :

مجموعة بيانات الصوت المشتركة من Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
لهجة نص سلسلة لهجة المتحدث ، راجع https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
سن نص سلسلة مجموعة عمر المتحدث (مثل المراهقين أو الأربعينيات) ، راجع https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
معرف_العميل نص سلسلة UUID مجزأ لمستخدم معين
تصويت معارِض العددية int32 عدد الأشخاص الذين قالوا أن الصوت لا يتطابق مع النص
جنس ClassLabel int64 جنس المتحدث
مقطع نص سلسلة إذا كانت الجملة تنتمي إلى شريحة مجموعة بيانات مخصصة ، فسيتم إدراجها هنا
جملة او حكم على نص سلسلة النسخ المفترض للصوت
التصويتات المؤيِدة العددية int32 عدد الأشخاص الذين قالوا أن الصوت يطابق النص
صوت بشري صوتي (لا أحد،) int64

Common_voice / en (التكوين الافتراضي)

  • وصف التكوين : رمز اللغة: en

  • حجم التحميل : ٥٦ ٫ 56.45 GiB

  • حجم مجموعة البيانات : 2.79 TiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 16،164
'test' 16،164
'train' 564337
'validation' 1،224،864

Common_voice / ab

  • وصف التكوين : رمز اللغة: ab

  • حجم التحميل : 39.14 MiB

  • حجم مجموعة البيانات : 133.24 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 9
'train' 22
'validation' 31

Common_voice / ar

  • وصف التكوين : رمز اللغة: ar

  • حجم التحميل : 1.64 GiB

  • حجم مجموعة البيانات : 67.16 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 7،517
'test' 7622
'train' 14227
'validation' 43291

Common_voice / as

  • وصف التكوين : رمز اللغة: as

  • حجم التحميل : 21.20 MiB

  • حجم مجموعة البيانات : 1.65 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 124
'test' 110
'train' 270
'validation' 504

Common_voice / br

  • وصف التكوين : رمز اللغة: br

  • حجم التحميل : 443.72 MiB

  • حجم مجموعة البيانات : 13.46 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1997
'test' 2،087
'train' 2780
'validation' 8560

Common_voice / ca

  • وصف التكوين : رمز اللغة: ca

  • حجم التحميل : 19.32 GiB

  • حجم مجموعة البيانات : 1.19 TiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 15،724
'test' 15،724
'train' 285،584
'validation' 416701

Common_voice / cnh

  • وصف التكوين : رمز اللغة: cnh

  • حجم التحميل : 153.86 MiB

  • حجم مجموعة البيانات : 5.12 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 756
'test' 752
'train' 807
'validation' 2432

Common_voice / cs

  • وصف التكوين : رمز اللغة: cs

  • حجم التحميل : 1.18 GiB

  • حجم مجموعة البيانات : 56.89 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 4118
'test' 4،144
'train' 5655
'validation' 30،431

Common_voice / cv

  • وصف التكوين : رمز اللغة: cv

  • حجم التحميل : 418.98 MiB

  • حجم مجموعة البيانات : 8.10 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 818
'test' 788
'train' 931
'validation' 3،496

Common_voice / cy

  • وصف التكوين : رمز اللغة: cy

  • حجم التحميل : 3.20 GiB

  • حجم مجموعة البيانات : 128.68 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 4،776
'test' 4820
'train' 6839
'validation' 72984

Common_voice / de

  • وصف التكوين : رمز اللغة: de

  • حجم التحميل : 21.68 GiB

  • حجم مجموعة البيانات : 1.29 TiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 15.588
'test' 15.588
'train' 246.525
'validation' 565186

Common_voice / dv

  • وصف التكوين : رمز اللغة: dv

  • حجم التحميل : 515.45 MiB

  • حجم مجموعة البيانات : 31.59 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2077
'test' 2،202
'train' 2680
'validation' 11،866

Common_voice / el

  • وصف التكوين : رمز اللغة: el

  • حجم التحميل : 363.89 MiB

  • حجم مجموعة البيانات : 14.62 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،401
'test' 1،522
'train' 2،316
'validation' 5996

Common_voice / eo

  • وصف التكوين : رمز اللغة: eo

  • حجم التحميل : ٢ ٫ 2.69 GiB

  • حجم مجموعة البيانات : 167.14 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 8،987
'test' 8969
'train' 19.587
'validation' 58.094

Common_voice / es

  • وصف التكوين : رمز اللغة: es

  • حجم التحميل : 15.08 GiB

  • حجم مجموعة البيانات : 684.66 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 15.089
'test' 15.089
'train' 161،813
'validation' 236.314

Common_voice / et

  • وصف التكوين : رمز اللغة: et

  • حجم التحميل : 731.63 MiB

  • حجم مجموعة البيانات : 37.95 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2،507
'test' 2،509
'train' 2966
'validation' 10683

Common_voice / eu

  • وصف التكوين : رمز اللغة: eu

  • حجم التحميل : 3.41 GiB

  • حجم مجموعة البيانات : 127.60 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 5،172
'test' 5،172
'train' 7،505
'validation' 63.009

Common_voice / fa

  • وصف التكوين : رمز اللغة: fa

  • حجم التحميل : 8.27 GiB

  • حجم مجموعة البيانات : 328.61 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 5213
'test' 5213
'train' 7593
'validation' 251659

Common_voice / fi

  • وصف التكوين : رمز اللغة: fi

  • حجم التحميل : 47.57 MiB

  • حجم مجموعة البيانات : 3.41 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 415
'test' 428
'train' 460
'validation' 1،305

Common_voice / الاب

  • وصف التكوين : رمز اللغة: fr

  • حجم التحميل : 17.82 GiB

  • حجم مجموعة البيانات : 1.17 TiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 15،763
'test' 15،763
'train' 298982
'validation' 461.004

Common_voice / fy-NL

  • وصف التكوين : رمز اللغة: fy-NL

  • حجم التحميل : 1.15 GiB

  • حجم مجموعة البيانات : 29.93 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2790
'test' 3،020
'train' 3927
'validation' 10495

Common_voice / ga-IE

  • وصف التكوين : رمز اللغة: ga-IE

  • حجم التحميل : 149.30 MiB

  • حجم مجموعة البيانات : 5.11 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 497
'test' 506
'train' 541
'validation' 3،352

Common_voice / hi

  • وصف التكوين : رمز اللغة: hi

  • حجم التحميل : 20.43 MiB

  • حجم مجموعة البيانات : 1.15 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 135
'test' 127
'train' 157
'validation' 419

Common_voice / hsb

  • وصف التكوين : رمز اللغة: hsb

  • حجم التحميل : 75.69 MiB

  • حجم مجموعة البيانات : 5.67 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 172
'test' 387
'train' 808
'validation' 1،367

Common_voice / hu

  • وصف التكوين : رمز اللغة: hu

  • حجم التحميل : 231.51 MiB

  • حجم مجموعة البيانات : 17.07 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،434
'test' 1،649
'train' 3348
'validation' 6،457

Common_voice / ia

  • وصف التكوين : رمز اللغة: ia

  • حجم التحميل : 216.01 MiB

  • حجم مجموعة البيانات : 14.99 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،601
'test' 899
'train' 3،477
'validation' 5،978

Common_voice / id

  • وصف التكوين : رمز اللغة: معرف

  • حجم التحميل : 453.87 MiB

  • حجم مجموعة البيانات : 17.20 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،835
'test' 1،844
'train' 2،130
'validation' 8696

Common_voice / it

  • وصف التكوين : رمز اللغة: it

  • حجم التحميل : 5.20 GiB

  • حجم مجموعة البيانات : 316.38 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 12،928
'test' 12،928
'train' 58.015
'validation' 102.579

Common_voice / ja

  • وصف التكوين : رمز اللغة: ja

  • حجم التحميل : 145.80 MiB

  • حجم مجموعة البيانات : 6.83 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 586
'test' 632
'train' 722
'validation' 3،072

Common_voice / ka

  • وصف التكوين : رمز اللغة: ka

  • حجم التحميل : 99.45 MiB

  • حجم مجموعة البيانات : 7.51 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 527
'test' 656
'train' 1،058
'validation' 2،275

Common_voice / kab

  • وصف التكوين : رمز اللغة: kab

  • حجم التحميل : 15.99 GiB

  • حجم مجموعة البيانات : 718.51 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 14،622
'test' 14،622
'train' 120.530
'validation' 573،718

Common_voice / ky

  • وصف التكوين : رمز اللغة: ky

  • حجم التحميل : 552.60 MiB

  • حجم مجموعة البيانات : 18.70 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،511
'test' 1،503
'train' 1955
'validation' 9،236

الصوت المشترك / إل جي

  • وصف التكوين : رمز اللغة: lg

  • حجم التحميل : 198.55 MiB

  • حجم مجموعة البيانات : 6.65 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 384
'test' 584
'train' 1250
'validation' 2220

الصوت المشترك / لتر

  • وصف التكوين : رمز اللغة: lt

  • حجم التحميل : 129.03 MiB

  • حجم مجموعة البيانات : 4.79 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 244
'test' 466
'train' 931
'validation' 1،644

Common_voice / lv

  • وصف التكوين : رمز اللغة: lv

  • حجم التحميل : 198.66 MiB

  • حجم مجموعة البيانات : 13.07 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2،002
'test' 1،882
'train' 2،552
'validation' 6444

Common_voice / mn

  • وصف التكوين : رمز اللغة: mn

  • حجم التحميل : 463.84 MiB

  • حجم مجموعة البيانات : 22.09 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،837
'test' 1،862
'train' 2،183
'validation' 7،487

الصوت المشترك / طن متري

  • وصف التكوين : رمز اللغة: mt

  • حجم التحميل : 405.42 MiB

  • حجم مجموعة البيانات : 15.09 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،516
'test' 1،617
'train' 2،036
'validation' 5747

Common_voice / nl

  • وصف التكوين : رمز اللغة: nl

  • حجم التحميل : 1.62 GiB

  • حجم مجموعة البيانات : 90.20 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 4938
'test' 5708
'train' 9460
'validation' 52488

Common_voice / أو

  • وصف التكوين : رمز اللغة: أو

  • حجم التحميل : 189.85 MiB

  • حجم مجموعة البيانات : 1.97 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 129
'test' 98
'train' 388
'validation' 615

Common_voice / pa-IN

  • وصف التكوين : رمز اللغة: pa-IN

  • حجم التحميل : 66.52 MiB

  • حجم مجموعة البيانات : 1.03 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 44
'test' 116
'train' 211
'validation' 371

Common_voice / pl

  • وصف التكوين : رمز اللغة: pl

  • حجم التحميل : 3.29 GiB

  • حجم مجموعة البيانات : 141.06 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 5153
'test' 5153
'train' 7،468
'validation' 90791

Common_voice / pt

  • وصف التكوين : رمز اللغة: pt

  • حجم التحميل : 1.59 GiB

  • حجم مجموعة البيانات : 75.64 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 4592
'test' 4641
'train' 6514
'validation' 41،584

Common_voice / rm-sursilv

  • وصف التكوين : رمز اللغة: rm-sursilv

  • حجم التحميل : 263.17 MiB

  • حجم مجموعة البيانات : 12.31 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،205
'test' 1،194
'train' 1،384
'validation' 3،783

Common_voice / rm-vallader

  • وصف التكوين : رمز اللغة: rm-vallader

  • حجم التحميل : 103.11 MiB

  • حجم مجموعة البيانات : 4.89 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 357
'test' 378
'train' 574
'validation' 1،316

Common_voice / ro

  • وصف التكوين : رمز اللغة: ro

  • حجم التحميل : 249.84 MiB

  • حجم مجموعة البيانات : 14.54 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 858
'test' 1،778
'train' 3،399
'validation' 6039

Common_voice / ru

  • وصف التكوين : كود اللغة: ru

  • حجم التحميل : 3.40 GiB

  • حجم مجموعة البيانات : 175.04 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 7963
'test' 8،007
'train' 15481
'validation' 74256

Common_voice / rw

  • وصف التكوين : رمز اللغة: rw

  • حجم التحميل : 39.62 GiB

  • حجم مجموعة البيانات : 2.18 TiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 15،032
'test' 15،724
'train' 515197
'validation' 832929

Common_voice / sah

  • وصف التكوين : رمز اللغة: sah

  • حجم التحميل : 172.85 MiB

  • حجم مجموعة البيانات : 9.42 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 405
'test' 757
'train' 1،442
'validation' 2،606

Common_voice / sl

  • وصف التكوين : رمز اللغة: sl

  • حجم التحميل : 212.43 MiB

  • حجم مجموعة البيانات : 9.67 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 556
'test' 881
'train' 2،038
'validation' 4669

Common_voice / sv-SE

  • وصف التكوين : رمز اللغة: sv-SE

  • حجم التحميل : 401.91 MiB

  • حجم مجموعة البيانات : 18.27 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2،019
'test' 2،027
'train' 2،331
'validation' 12552

Common_voice / ta

  • وصف التكوين : رمز اللغة: ta

  • حجم التحميل : 648.28 MiB

  • حجم مجموعة البيانات : 24.06 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،779
'test' 1،781
'train' 2،009
'validation' 12652

Common_voice / th

  • وصف التكوين : رمز اللغة: th

  • حجم التحميل : 325.49 MiB

  • حجم مجموعة البيانات : 18.32 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،922
'test' 2،188
'train' 2917
'validation' 7028

Common_voice / tr

  • وصف التكوين : رمز اللغة: tr

  • حجم التحميل : 592.09 MiB

  • حجم مجموعة البيانات : 28.21 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 1،647
'test' 1،647
'train' 1،831
'validation' 18685

Common_voice / tt

  • وصف التكوين : رمز اللغة: tt

  • حجم التحميل : 741.15 MiB

  • حجم مجموعة البيانات : 46.85 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2،127
'test' 4،485
'train' 11،211
'validation' 25781

Common_voice / uk

  • وصف التكوين : رمز اللغة: uk

  • حجم التحميل : 1.13 GiB

  • حجم مجموعة البيانات : 49.66 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 3236
'test' 3235
'train' 4035
'validation' 22337

Common_voice / vi

  • وصف التكوين : رمز اللغة: vi

  • حجم التحميل : 49.52 MiB

  • حجم مجموعة البيانات : 1.47 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 200
'test' 198
'train' 221
'validation' 619

Common_voice / vot

  • وصف التكوين : رمز اللغة: vot

  • حجم التحميل : 7.43 MiB

  • حجم مجموعة البيانات : 11.39 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 3
'validation' 3

Common_voice / zh-CN

  • وصف التكوين : رمز اللغة: zh-CN

  • حجم التحميل : 2.03 GiB

  • حجم مجموعة البيانات : 122.54 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 8743
'test' 8760
'train' 18.541
'validation' 36405

Common_voice / zh-HK

  • وصف التكوين : رمز اللغة: zh-HK

  • حجم التحميل : 2.58 GiB

  • حجم مجموعة البيانات : 78.80 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 5،172
'test' 5،172
'train' 7،506
'validation' 41835

Common_voice / zh-TW

  • وصف التكوين : رمز اللغة: zh-TW

  • حجم التحميل : 2.03 GiB

  • حجم مجموعة البيانات : 69.06 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev' 2895
'test' 2895
'train' 3،507
'validation' 61،232