ljspeech

Описание :

Это общедоступный набор речевых данных, состоящий из 13 100 коротких аудиоклипов, в которых один спикер читает отрывки из 7 научно-популярных книг. Транскрипция предоставляется для каждого клипа. Клипы различаются по длине от 1 до 10 секунд и имеют общую продолжительность примерно 24 часа.

Тексты были опубликованы между 1884 и 1964 годами и находятся в общественном достоянии. Аудио было записано в 2016-17 годах проектом LibriVox и также находится в открытом доступе.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://keithito.com/LJ-Speech-Dataset/
Исходный код : tfds.datasets.ljspeech.Builder
Версии :
- 1.1.1 (по умолчанию): исправлен тип речевых данных с dtype=tf.int16.
Размер загрузки : 2.56 GiB
Размер набора данных : 10.73 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	13 100

Структура функции :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
я бы	Тензор		нить
речь	Аудио	(Никто,)	int16
текст	Текст		нить
text_normalized	Текст		нить

Контролируемые ключи (см. документ as_supervised ): ('text_normalized', 'speech')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

ljspeech Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

ljspeech