ljspeech

  • opis :

Jest to zbiór danych mowy należący do domeny publicznej, składający się z 13 100 krótkich klipów audio jednego mówcy czytającego fragmenty z 7 książek non-fiction. Do każdego klipu dołączona jest transkrypcja. Klipy mają różną długość od 1 do 10 sekund i mają łączną długość około 24 godzin.

Teksty zostały opublikowane w latach 1884-1964 i znajdują się w domenie publicznej. Dźwięk został nagrany w latach 2016-17 przez projekt LibriVox i również znajduje się w domenie publicznej.

Rozdzielać Przykłady
'train' 13100
  • Struktura funkcji :
FeaturesDict({
   
'id': string,
   
'speech': Audio(shape=(None,), dtype=int16),
   
'text': Text(shape=(), dtype=string),
   
'text_normalized': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ID Napinacz strunowy
przemówienie Audio (Nic,) int16
tekst Tekst strunowy
tekst_znormalizowany Tekst strunowy
  • Cytat :
@misc{ljspeech17,
  author      
= {Keith Ito},
  title        
= {The LJ Speech Dataset},
  howpublished
= {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year        
= 2017
}