общий_голос

  • Описание :

Набор общих голосовых данных Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
акцент Текст нить Акцент говорящего, см. https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts .
возраст Текст нить Возрастная группа говорящего (например, подростки или сорокалетние), см. https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts .
ID клиента Текст нить Хэшированный UUID данного пользователя
минусы Скаляр int32 Количество людей, которые сказали, что звук не соответствует тексту
Пол Метка класса int64 Пол говорящего
сегмент Текст нить Если предложение принадлежит пользовательскому сегменту набора данных, оно будет указано здесь.
приговор Текст нить Предполагаемая транскрипция аудио
плюсы Скаляр int32 Количество людей, которые сказали, что аудио соответствует тексту
голос Аудио (Никто,) int64

common_voice/en (конфигурация по умолчанию)

  • Описание конфигурации : Код языка: en

  • Размер загрузки : 56.45 GiB

  • Размер набора данных : 2.79 TiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 16 164
'test' 16 164
'train' 564 337
'validation' 1 224 864

common_voice/ab

  • Описание конфигурации : Код языка: ab

  • Размер загрузки : 39.14 MiB

  • Размер набора данных : 133.24 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • Описание конфигурации : Код языка: ar

  • Размер загрузки : 1.64 GiB

  • Размер набора данных : 67.16 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 7 517
'test' 7622
'train' 14 227
'validation' 43 291

common_voice/как

  • Описание конфигурации : Код языка: как

  • Размер загрузки : 21.20 MiB

  • Размер набора данных : 1.65 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • Описание конфигурации : Код языка: br

  • Размер загрузки : 443.72 MiB

  • Размер набора данных : 13.46 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1997
'test' 2087
'train' 2780
'validation' 8560

common_voice/ca

  • Описание конфигурации : Код языка: ca

  • Размер загрузки : 19.32 GiB

  • Размер набора данных : 1.19 TiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 15 724
'test' 15 724
'train' 285 584
'validation' 416 701

common_voice/cnh

  • Описание конфигурации : Код языка: cnh

  • Размер загрузки : 153.86 MiB

  • Размер набора данных : 5.12 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 756
'test' 752
'train' 807
'validation' 2432

common_voice/cs

  • Описание конфигурации : Код языка: cs

  • Размер загрузки : 1.18 GiB

  • Размер набора данных : 56.89 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 4118
'test' 4144
'train' 5655
'validation' 30 431

common_voice/резюме

  • Описание конфигурации : Код языка: cv

  • Размер загрузки : 418.98 MiB

  • Размер набора данных : 8.10 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 818
'test' 788
'train' 931
'validation' 3496

common_voice/cy

  • Описание конфигурации : Код языка: cy

  • Размер загрузки : 3.20 GiB

  • Размер набора данных : 128.68 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 4776
'test' 4820
'train' 6839
'validation' 72 984

common_voice/de

  • Описание конфигурации : Код языка: de

  • Размер загрузки : 21.68 GiB

  • Размер набора данных : 1.29 TiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 15 588
'test' 15 588
'train' 246 525
'validation' 565 186

common_voice/DV

  • Описание конфигурации : Код языка: dv

  • Размер загрузки : 515.45 MiB

  • Размер набора данных : 31.59 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2077
'test' 2202
'train' 2680
'validation' 11 866

common_voice/эл

  • Описание конфигурации : Код языка: el

  • Размер загрузки : 363.89 MiB

  • Размер набора данных : 14.62 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1401
'test' 1522
'train' 2316
'validation' 5996

common_voice/эо

  • Описание конфигурации : Код языка: eo

  • Размер загрузки : 2.69 GiB

  • Размер набора данных : 167.14 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 8987
'test' 8969
'train' 19 587
'validation' 58 094

common_voice/es

  • Описание конфигурации : Код языка: es

  • Размер загрузки : 15.08 GiB

  • Размер набора данных : 684.66 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 15 089
'test' 15 089
'train' 161 813
'validation' 236 314

common_voice/et

  • Описание конфигурации : Код языка: et

  • Размер загрузки : 731.63 MiB

  • Размер набора данных : 37.95 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2507
'test' 2509
'train' 2966
'validation' 10 683

common_voice/eu

  • Описание конфигурации : Код языка: eu

  • Размер загрузки : 3.41 GiB

  • Размер набора данных : 127.60 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 5172
'test' 5172
'train' 7 505
'validation' 63 009

common_voice/fa

  • Описание конфигурации : Код языка: fa

  • Размер загрузки : 8.27 GiB

  • Размер набора данных : 328.61 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 5213
'test' 5213
'train' 7 593
'validation' 251 659

common_voice/fi

  • Описание конфигурации : Код языка: fi

  • Размер загрузки : 47.57 MiB

  • Размер набора данных : 3.41 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 415
'test' 428
'train' 460
'validation' 1305

common_voice/fr

  • Описание конфигурации : Код языка: fr

  • Размер загрузки : 17.82 GiB

  • Размер набора данных : 1.17 TiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 15 763
'test' 15 763
'train' 298 982
'validation' 461 004

common_voice/fy-NL

  • Описание конфигурации : Код языка: fy-NL

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 29.93 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2790
'test' 3020
'train' 3927
'validation' 10 495

common_voice/ga-IE

  • Описание конфигурации : Код языка: ga-IE

  • Размер загрузки : 149.30 MiB

  • Размер набора данных : 5.11 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 497
'test' 506
'train' 541
'validation' 3352

common_voice/привет

  • Описание конфигурации : Код языка: привет

  • Размер загрузки : 20.43 MiB .

  • Размер набора данных : 1.15 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • Описание конфигурации : Код языка: hsb

  • Размер загрузки : 75.69 MiB

  • Размер набора данных : 5.67 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 172
'test' 387
'train' 808
'validation' 1367

common_voice/ху

  • Описание конфигурации : Код языка: hu

  • Размер загрузки : 231.51 MiB

  • Размер набора данных : 17.07 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1434
'test' 1649
'train' 3348
'validation' 6457

common_voice/ia

  • Описание конфигурации : Код языка: ia

  • Размер загрузки : 216.01 MiB

  • Размер набора данных : 14.99 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1601
'test' 899
'train' 3477
'validation' 5978

общий_голос/идентификатор

  • Описание конфигурации : Код языка: id

  • Размер загрузки : 453.87 MiB

  • Размер набора данных : 17.20 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1835
'test' 1844
'train' 2130
'validation' 8696

common_voice/это

  • Описание конфигурации : Код языка: it

  • Размер загрузки : 5.20 GiB

  • Размер набора данных : 316.38 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 12 928
'test' 12 928
'train' 58 015
'validation' 102 579

common_voice/ja

  • Описание конфигурации : Код языка: ja

  • Размер загрузки : 145.80 MiB

  • Размер набора данных : 6.83 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 586
'test' 632
'train' 722
'validation' 3072

common_voice/ка

  • Описание конфигурации : Код языка: ka

  • Размер загрузки : 99.45 MiB

  • Размер набора данных : 7.51 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 527
'test' 656
'train' 1058
'validation' 2275

common_voice/каб

  • Описание конфигурации : Код языка: kab

  • Размер загрузки : 15.99 GiB

  • Размер набора данных : 718.51 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 14 622
'test' 14 622
'train' 120 530
'validation' 573 718

common_voice/ky

  • Описание конфигурации : Код языка: ky

  • Размер загрузки : 552.60 MiB

  • Размер набора данных : 18.70 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1511
'test' 1503
'train' 1955
'validation' 9 236

common_voice/lg

  • Описание конфигурации : Код языка: lg

  • Размер загрузки : 198.55 MiB

  • Размер набора данных : 6.65 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 384
'test' 584
'train' 1250
'validation' 2220

common_voice/lt

  • Описание конфигурации : Код языка: lt

  • Размер загрузки : 129.03 MiB

  • Размер набора данных : 4.79 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 244
'test' 466
'train' 931
'validation' 1644

common_voice/lv

  • Описание конфигурации : Код языка: lv

  • Размер загрузки : 198.66 MiB

  • Размер набора данных : 13.07 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2002
'test' 1882
'train' 2552
'validation' 6444

common_voice/мн

  • Описание конфигурации : Код языка: mn

  • Размер загрузки : 463.84 MiB

  • Размер набора данных : 22.09 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1837
'test' 1862
'train' 2183
'validation' 7487

common_voice/мт

  • Описание конфигурации : Код языка: mt

  • Размер загрузки : 405.42 MiB

  • Размер набора данных : 15.09 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1516
'test' 1617
'train' 2036
'validation' 5747

common_voice/nl

  • Описание конфигурации : Код языка: nl

  • Размер загрузки : 1.62 GiB

  • Размер набора данных : 90.20 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 4938
'test' 5708
'train' 9460
'validation' 52 488

common_voice/или

  • Описание конфигурации : Код языка: или

  • Размер загрузки : 189.85 MiB

  • Размер набора данных : 1.97 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Описание конфигурации : Код языка: pa-IN

  • Размер загрузки : 66.52 MiB .

  • Размер набора данных : 1.03 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • Описание конфигурации : Код языка: pl

  • Размер загрузки : 3.29 GiB

  • Размер набора данных : 141.06 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 5153
'test' 5153
'train' 7468
'validation' 90 791

common_voice/pt

  • Описание конфигурации : Код языка: pt

  • Размер загрузки : 1.59 GiB

  • Размер набора данных : 75.64 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 4592
'test' 4641
'train' 6514
'validation' 41 584

common_voice/rm-sursilv

  • Описание конфигурации : Код языка: rm-sursilv

  • Размер загрузки : 263.17 MiB

  • Размер набора данных : 12.31 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1205
'test' 1194
'train' 1384
'validation' 3783

common_voice/rm-vallader

  • Описание конфигурации : Код языка: rm-vallader

  • Размер загрузки : 103.11 MiB

  • Размер набора данных : 4.89 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 357
'test' 378
'train' 574
'validation' 1316

common_voice/ро

  • Описание конфигурации : Код языка: ro

  • Размер загрузки : 249.84 MiB

  • Размер набора данных : 14.54 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 858
'test' 1778
'train' 3399
'validation' 6039

common_voice/ru

  • Описание конфигурации : Код языка: ru

  • Размер загрузки : 3.40 GiB

  • Размер набора данных : 175.04 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 7963
'test' 8007
'train' 15 481
'validation' 74 256

common_voice/rw

  • Описание конфигурации : Код языка: rw

  • Размер загрузки : 39.62 GiB

  • Размер набора данных : 2.18 TiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 15 032
'test' 15 724
'train' 515 197
'validation' 832 929

common_voice/sah

  • Описание конфигурации : Код языка: sah

  • Размер загрузки : 172.85 MiB

  • Размер набора данных : 9.42 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 405
'test' 757
'train' 1442
'validation' 2606

common_voice/sl

  • Описание конфигурации : Код языка: sl

  • Размер загрузки : 212.43 MiB

  • Размер набора данных : 9.67 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 556
'test' 881
'train' 2038
'validation' 4669

common_voice/sv-SE

  • Описание конфигурации : Код языка: sv-SE

  • Размер загрузки : 401.91 MiB

  • Размер набора данных : 18.27 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2019
'test' 2027
'train' 2331
'validation' 12 552

common_voice/ta

  • Описание конфигурации : Код языка: ta

  • Размер загрузки : 648.28 MiB

  • Размер набора данных : 24.06 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1779
'test' 1781
'train' 2009
'validation' 12 652

common_voice/th

  • Описание конфигурации : Код языка: th

  • Размер загрузки : 325.49 MiB

  • Размер набора данных : 18.32 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1922
'test' 2188
'train' 2917
'validation' 7028

common_voice/tr

  • Описание конфигурации : Код языка: tr

  • Размер загрузки : 592.09 MiB

  • Размер набора данных : 28.21 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 1647
'test' 1647
'train' 1831
'validation' 18 685

common_voice/tt

  • Описание конфигурации : Код языка: tt

  • Размер загрузки : 741.15 MiB

  • Размер набора данных : 46.85 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2127
'test' 4485
'train' 11 211
'validation' 25 781

common_voice/uk

  • Описание конфигурации : Код языка: uk

  • Размер загрузки : 1.13 GiB

  • Размер набора данных : 49.66 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 3236
'test' 3235
'train' 4035
'validation' 22 337

common_voice/ви

  • Описание конфигурации : Код языка: vi

  • Размер загрузки : 49.52 MiB

  • Размер набора данных : 1.47 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/голос

  • Описание конфигурации : Код языка: vot

  • Размер загрузки : 7.43 MiB

  • Размер набора данных : 11.39 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 3
'validation' 3

common_voice/zh-CN

  • Описание конфигурации : Код языка: zh-CN

  • Размер загрузки : 2.03 GiB

  • Размер набора данных : 122.54 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 8743
'test' 8760
'train' 18 541
'validation' 36 405

common_voice/zh-HK

  • Описание конфигурации : Код языка: zh-HK

  • Размер загрузки : 2.58 GiB

  • Размер набора данных : 78.80 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 5172
'test' 5172
'train' 7 506
'validation' 41 835

common_voice/zh-TW

  • Описание конфигурации : Код языка: zh-TW

  • Размер загрузки : 2.03 GiB

  • Размер набора данных : 69.06 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'dev' 2895
'test' 2895
'train' 3507
'validation' 61 232