ljspeech

  • Описание :

Это общедоступный набор речевых данных, состоящий из 13 100 коротких аудиоклипов, в которых один спикер читает отрывки из 7 научно-популярных книг. Транскрипция предоставляется для каждого клипа. Клипы различаются по длине от 1 до 10 секунд и имеют общую продолжительность примерно 24 часа.

Тексты были опубликованы между 1884 и 1964 годами и находятся в общественном достоянии. Аудио было записано в 2016-17 годах проектом LibriVox и также находится в открытом доступе.

Расколоть Примеры
'train' 13 100
  • Структура функции :
FeaturesDict({
   
'id': string,
   
'speech': Audio(shape=(None,), dtype=int16),
   
'text': Text(shape=(), dtype=string),
   
'text_normalized': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
я бы Тензор нить
речь Аудио (Никто,) int16
текст Текст нить
text_normalized Текст нить
  • Цитата :
@misc{ljspeech17,
  author      
= {Keith Ito},
  title        
= {The LJ Speech Dataset},
  howpublished
= {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year        
= 2017
}