- Описание :
Это общедоступный набор речевых данных, состоящий из 13 100 коротких аудиоклипов, в которых один спикер читает отрывки из 7 научно-популярных книг. Транскрипция предоставляется для каждого клипа. Клипы различаются по длине от 1 до 10 секунд и имеют общую продолжительность примерно 24 часа.
Тексты были опубликованы между 1884 и 1964 годами и находятся в общественном достоянии. Аудио было записано в 2016-17 годах проектом LibriVox и также находится в открытом доступе.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://keithito.com/LJ-Speech-Dataset/
Исходный код :
tfds.datasets.ljspeech.BuilderВерсии :
-
1.1.1(по умолчанию): исправлен тип речевых данных с dtype=tf.int16.
-
Размер загрузки :
2.56 GiBРазмер набора данных :
10.73 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 13 100 |
- Структура функции :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| ОсобенностиDict | ||||
| я бы | Тензор | нить | ||
| речь | Аудио | (Никто,) | int16 | |
| текст | Текст | нить | ||
| text_normalized | Текст | нить |
Контролируемые ключи (см. документ
as_supervised):('text_normalized', 'speech')Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}