vctk

Описание :

Этот корпус CSTR VCTK включает речевые данные, произнесенные 110 носителями английского языка с различными акцентами. Каждый говорящий читает около 400 предложений, которые были отобраны из газеты, радужного отрывка и абзаца извлечения, использованного для архива речевого акцента.

Обратите внимание, что текст «p315» был утерян из-за ошибки жесткого диска.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://doi.org/10.7488/ds/2645
Исходный код : tfds.audio.Vctk
Версии :
- 1.0.0 : выпуск VCTK 0.92.0.
- 1.0.1 (по умолчанию): исправлен тип речевых данных с dtype=tf.int16.
Размер загрузки : 10.94 GiB
Автоматическое кэширование ( документация ): Нет
Структура функции :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
акцент	Метка класса		int64
Пол	Метка класса		int64
я бы	Тензор		нить
оратор	Метка класса		int64
речь	Аудио	(Никто,)	int16
текст	Текст		нить

Контролируемые ключи (см. as_supervised doc ): ('text', 'speech')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (конфигурация по умолчанию)

Описание конфигурации : звук, записанный с помощью всенаправленного микрофона (DPA 4035). Содержит очень низкочастотные шумы.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Размер набора данных : 39.87 GiB
Сплиты :

Расколоть	Примеры
`'train'`	44 455

Примеры ( tfds.as_dataframe ):

vctk/микрофон2

Описание конфигурации : Звук записан с использованием конденсаторного микрофона с маленькой диафрагмой и очень широкой полосой пропускания (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Размер набора данных : 38.86 GiB
Сплиты :

Расколоть	Примеры
`'train'`	43 873

Примеры ( tfds.as_dataframe ):

vctk Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

vctk/mic1 (конфигурация по умолчанию)

vctk/микрофон2

vctk