ljspeech

  • Deskripsi :

Ini adalah kumpulan data ucapan domain publik yang terdiri dari 13.100 klip audio pendek dari satu bagian bacaan pembicara dari 7 buku non-fiksi. Transkripsi disediakan untuk setiap klip. Panjang klip bervariasi dari 1 hingga 10 detik dan memiliki durasi total sekitar 24 jam.

Teks-teks tersebut diterbitkan antara tahun 1884 dan 1964, dan berada dalam domain publik. Audio direkam pada 2016-17 oleh proyek LibriVox dan juga berada dalam domain publik.

Membelah Contoh
'train' 13.100
  • Struktur fitur :
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
Indo Tensor rangkaian
pidato Audio (Tidak ada,) int16
teks Teks rangkaian
text_normalized Teks rangkaian
  • Kutipan :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}