صدای مشترک

  • توضیحات :

مجموعه داده های صوتی مشترک موزیلا

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D توضیحات
FeaturesDict
لهجه متن رشته لهجه گوینده، به https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts مراجعه کنید
سن متن رشته سطل سنی گوینده (به عنوان مثال نوجوانان یا دهه چهل)، به https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts مراجعه کنید.
client_id متن رشته UUID هش شده یک کاربر مشخص
رای منفی اسکالر int32 تعداد افرادی که گفتند صدا با متن مطابقت ندارد
جنسیت ClassLabel int64 جنسیت گوینده
بخش متن رشته اگر جمله متعلق به یک بخش مجموعه داده سفارشی باشد، در اینجا فهرست می شود
جمله متن رشته رونویسی فرضی صدا
رای موافق اسکالر int32 تعداد افرادی که گفتند صدا با متن مطابقت دارد
صدا صوتی (هیچ،) int64

common_voice/en (پیکربندی پیش فرض)

  • توضیحات پیکربندی : کد زبان: en

  • حجم دانلود : 56.45 GiB

  • اندازه مجموعه داده : 2.79 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

صدای مشترک/ab

  • توضیحات پیکربندی : کد زبان: ab

  • حجم دانلود : 39.14 MiB

  • حجم مجموعه داده : 133.24 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

تقسیم کنید نمونه ها
'test' 9
'train' 22
'validation' 31

صدای مشترک/ar

  • توضیحات پیکربندی : کد زبان: ar

  • حجم دانلود : 1.64 GiB

  • حجم مجموعه داده : 67.16 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

صدای مشترک/عنوان

  • توضیحات پیکربندی : کد زبان: as

  • حجم دانلود : 21.20 MiB

  • حجم مجموعه داده : 1.65 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 124
'test' 110
'train' 270
'validation' 504

صدای مشترک/بر

  • توضیحات پیکربندی : کد زبان: br

  • حجم دانلود : 443.72 MiB

  • حجم مجموعه داده : 13.46 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1997
'test' 2,087
'train' 2780
'validation' 8560

صدای مشترک/حدود

  • توضیحات پیکربندی : کد زبان: حدود

  • حجم دانلود : 19.32 GiB

  • اندازه مجموعه داده : 1.19 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15724
'test' 15724
'train' 285584
'validation' 416701

common_voice/cnh

  • توضیحات پیکربندی : کد زبان: cnh

  • حجم دانلود : 153.86 MiB

  • حجم مجموعه داده : 5.12 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • توضیحات پیکربندی : کد زبان: cs

  • حجم دانلود : 1.18 GiB

  • حجم مجموعه داده : 56.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431

common_voice/cv

  • توضیحات پیکربندی : کد زبان: cv

  • حجم دانلود : 418.98 MiB

  • حجم مجموعه داده : 8.10 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 818
'test' 788
'train' 931
'validation' 3,496

صدای مشترک/سی

  • توضیحات پیکربندی : کد زبان: cy

  • حجم دانلود : 3.20 GiB

  • حجم مجموعه داده : 128.68 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4776
'test' 4820
'train' 6,839
'validation' 72984

صدای مشترک/de

  • توضیحات پیکربندی : کد زبان: de

  • حجم دانلود : 21.68 GiB

  • اندازه مجموعه داده : 1.29 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

صدای مشترک/دی وی

  • توضیحات پیکربندی : کد زبان: dv

  • حجم دانلود : 515.45 MiB

  • حجم مجموعه داده : 31.59 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2077
'test' 2202
'train' 2680
'validation' 11,866

صدای مشترک/ال

  • توضیحات پیکربندی : کد زبان: el

  • حجم دانلود : 363.89 MiB

  • حجم مجموعه داده : 14.62 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5996

common_voice/eo

  • توضیحات پیکربندی : کد زبان: eo

  • حجم دانلود : 2.69 GiB

  • حجم مجموعه داده : 167.14 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 8,987
'test' 8969
'train' 19587
'validation' 58,094

صدای مشترک/es

  • توضیحات پیکربندی : کد زبان: es

  • حجم دانلود : 15.08 GiB

  • حجم مجموعه داده : 684.66 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • توضیحات پیکربندی : کد زبان: et

  • حجم دانلود : 731.63 MiB

  • حجم مجموعه داده : 37.95 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2,507
'test' 2509
'train' 2966
'validation' 10683

common_voice/eu

  • توضیحات پیکربندی : کد زبان: eu

  • حجم دانلود : 3.41 GiB

  • حجم مجموعه داده : 127.60 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,172
'test' 5,172
'train' 7505
'validation' 63,009

صدای مشترک/فا

  • توضیحات پیکربندی : کد زبان: fa

  • حجم دانلود : 8.27 GiB

  • حجم مجموعه داده : 328.61 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,213
'test' 5,213
'train' 7593
'validation' 251,659

صدای مشترک/فی

  • توضیحات پیکربندی : کد زبان: fi

  • حجم دانلود : 47.57 MiB

  • حجم مجموعه داده : 3.41 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 415
'test' 428
'train' 460
'validation' 1,305

صدای مشترک/فر

  • توضیحات پیکربندی : کد زبان: fr

  • حجم دانلود : 17.82 GiB

  • اندازه مجموعه داده : 1.17 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15763
'test' 15763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • توضیحات پیکربندی : کد زبان: fy-NL

  • حجم دانلود : 1.15 GiB

  • حجم مجموعه داده : 29.93 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2790
'test' 3020
'train' 3,927
'validation' 10,495

common_voice/ga-IE

  • توضیحات پیکربندی : کد زبان: ga-IE

  • حجم دانلود : 149.30 MiB

  • حجم مجموعه داده : 5.11 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 497
'test' 506
'train' 541
'validation' 3,352

صدای مشترک/سلام

  • توضیحات پیکربندی : کد زبان: سلام

  • حجم دانلود : 20.43 MiB

  • حجم مجموعه داده : 1.15 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • توضیحات پیکربندی : کد زبان: hsb

  • حجم دانلود : 75.69 MiB

  • حجم مجموعه داده : 5.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 172
'test' 387
'train' 808
'validation' 1,367

صدای مشترک/هو

  • توضیحات پیکربندی : کد زبان: hu

  • حجم دانلود : 231.51 MiB

  • حجم مجموعه داده : 17.07 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,434
'test' 1649
'train' 3,348
'validation' 6,457

common_voice/ia

  • توضیحات پیکربندی : کد زبان: ia

  • حجم دانلود : 216.01 MiB

  • حجم مجموعه داده : 14.99 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1601
'test' 899
'train' 3,477
'validation' 5,978

common_voice/id

  • توضیحات پیکربندی : کد زبان: شناسه

  • حجم دانلود : 453.87 MiB

  • حجم مجموعه داده : 17.20 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8696

صدای مشترک/آن

  • توضیحات پیکربندی : کد زبان: آن

  • حجم دانلود : 5.20 GiB

  • حجم مجموعه داده : 316.38 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 12928
'test' 12928
'train' 58,015
'validation' 102,579

صدای مشترک/جا

  • توضیحات پیکربندی : کد زبان: ja

  • حجم دانلود : 145.80 MiB

  • حجم مجموعه داده : 6.83 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 586
'test' 632
'train' 722
'validation' 3,072

صدای مشترک/کا

  • توضیحات پیکربندی : کد زبان: ka

  • حجم دانلود : 99.45 MiB

  • حجم مجموعه داده : 7.51 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 527
'test' 656
'train' 1058
'validation' 2275

صدای مشترک/کاب

  • توضیحات پیکربندی : کد زبان: kab

  • حجم دانلود : 15.99 GiB

  • حجم مجموعه داده : 718.51 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 14622
'test' 14622
'train' 120,530
'validation' 573,718

صدای مشترک/ky

  • توضیحات پیکربندی : کد زبان: ky

  • حجم دانلود : 552.60 MiB

  • حجم مجموعه داده : 18.70 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1511
'test' 1,503
'train' 1,955
'validation' 9236

common_voice/lg

  • توضیحات پیکربندی : کد زبان: lg

  • حجم دانلود : 198.55 MiB

  • حجم مجموعه داده : 6.65 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 384
'test' 584
'train' 1250
'validation' 2220

common_voice/lt

  • توضیحات پیکربندی : کد زبان: lt

  • حجم دانلود : 129.03 MiB

  • حجم مجموعه داده : 4.79 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • توضیحات پیکربندی : کد زبان: lv

  • حجم دانلود : 198.66 MiB

  • حجم مجموعه داده : 13.07 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2002
'test' 1,882
'train' 2,552
'validation' 6,444

صدای مشترک/من

  • توضیحات پیکربندی : کد زبان: mn

  • حجم دانلود : 463.84 MiB

  • حجم مجموعه داده : 22.09 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

مشترک_صدا/mt

  • توضیحات پیکربندی : کد زبان: mt

  • حجم دانلود : 405.42 MiB

  • حجم مجموعه داده : 15.09 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,516
'test' 1,617
'train' 2036
'validation' 5,747

common_voice/nl

  • توضیحات پیکربندی : کد زبان: nl

  • حجم دانلود : 1.62 GiB

  • حجم مجموعه داده : 90.20 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4,938
'test' 5708
'train' 9,460
'validation' 52,488

صدای مشترک/یا

  • توضیحات پیکربندی : کد زبان: یا

  • حجم دانلود : 189.85 MiB

  • حجم مجموعه داده : 1.97 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • توضیحات پیکربندی : کد زبان: pa-IN

  • حجم دانلود : 66.52 MiB

  • حجم مجموعه داده : 1.03 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • توضیحات پیکربندی : کد زبان: pl

  • حجم دانلود : 3.29 GiB

  • حجم مجموعه داده : 141.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

Common_voice/pt

  • توضیحات پیکربندی : کد زبان: pt

  • حجم دانلود : 1.59 GiB

  • حجم مجموعه داده : 75.64 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 4592
'test' 4641
'train' 6514
'validation' 41584

صدای مشترک/rm-sursilv

  • توضیحات پیکربندی : کد زبان: rm-sursilv

  • حجم دانلود : 263.17 MiB

  • حجم مجموعه داده : 12.31 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1205
'test' 1,194
'train' 1,384
'validation' 3783

صدای مشترک/rm-valader

  • توضیحات پیکربندی : کد زبان: rm-vallader

  • حجم دانلود : 103.11 MiB

  • حجم مجموعه داده : 4.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 357
'test' 378
'train' 574
'validation' 1,316

صدای مشترک/رو

  • توضیحات پیکربندی : کد زبان: ro

  • حجم دانلود : 249.84 MiB

  • حجم مجموعه داده : 14.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 858
'test' 1778
'train' 3,399
'validation' 6039

common_voice/ru

  • توضیحات پیکربندی : کد زبان: ru

  • حجم دانلود : 3.40 GiB

  • حجم مجموعه داده : 175.04 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 7,963
'test' 8007
'train' 15,481
'validation' 74,256

common_voice/rw

  • توضیحات پیکربندی : کد زبان: rw

  • حجم دانلود : 39.62 GiB

  • اندازه مجموعه داده : 2.18 TiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 15032
'test' 15724
'train' 515,197
'validation' 832,929

صدای مشترک/صح

  • توضیحات پیکربندی : کد زبان: sah

  • حجم دانلود : 172.85 MiB

  • حجم مجموعه داده : 9.42 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 405
'test' 757
'train' 1,442
'validation' 2606

common_voice/sl

  • توضیحات پیکربندی : کد زبان: sl

  • حجم دانلود : 212.43 MiB

  • حجم مجموعه داده : 9.67 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 556
'test' 881
'train' 2038
'validation' 4669

common_voice/sv-SE

  • توضیحات پیکربندی : کد زبان: sv-SE

  • حجم دانلود : 401.91 MiB

  • حجم مجموعه داده : 18.27 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2019
'test' 2027
'train' 2,331
'validation' 12552

صدای مشترک/تا

  • توضیحات پیکربندی : کد زبان: ta

  • حجم دانلود : 648.28 MiB

  • حجم مجموعه داده : 24.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1779
'test' 1781
'train' 2009
'validation' 12652

صدای مشترک/ام

  • توضیحات پیکربندی : کد زبان: th

  • حجم دانلود : 325.49 MiB

  • حجم مجموعه داده : 18.32 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

common_voice/tr

  • توضیحات پیکربندی : کد زبان: tr

  • حجم دانلود : 592.09 MiB

  • حجم مجموعه داده : 28.21 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18685

صدای مشترک/tt

  • توضیحات پیکربندی : کد زبان: tt

  • حجم دانلود : 741.15 MiB

  • حجم مجموعه داده : 46.85 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2,127
'test' 4,485
'train' 11211
'validation' 25781

common_voice/uk

  • توضیحات پیکربندی : کد زبان: انگلستان

  • حجم دانلود : 1.13 GiB

  • حجم مجموعه داده : 49.66 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 3,236
'test' 3,235
'train' 4035
'validation' 22,337

common_voice/vi

  • توضیحات پیکربندی : کد زبان: vi

  • حجم دانلود : 49.52 MiB

  • حجم مجموعه داده : 1.47 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 200
'test' 198
'train' 221
'validation' 619

صدای مشترک/رای

  • توضیحات پیکربندی : کد زبان: vot

  • حجم دانلود : 7.43 MiB

  • حجم مجموعه داده : 11.39 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیمات :

تقسیم کنید نمونه ها
'train' 3
'validation' 3

common_voice/zh-CN

  • توضیحات پیکربندی : کد زبان: zh-CN

  • حجم دانلود : 2.03 GiB

  • حجم مجموعه داده : 122.54 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 8743
'test' 8760
'train' 18541
'validation' 36,405

common_voice/zh-HK

  • توضیحات پیکربندی : کد زبان: zh-HK

  • حجم دانلود : 2.58 GiB

  • حجم مجموعه داده : 78.80 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 5,172
'test' 5,172
'train' 7506
'validation' 41,835

common_voice/zh-TW

  • توضیحات پیکربندی : کد زبان: zh-TW

  • حجم دانلود : 2.03 GiB

  • حجم مجموعه داده : 69.06 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیمات :

تقسیم کنید نمونه ها
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61232