- Deskripsi :
LibriTTS adalah korpus bahasa Inggris multi-speaker sekitar 585 jam pidato bahasa Inggris yang dibaca dengan kecepatan pengambilan sampel 24kHz, disiapkan oleh Heiga Zen dengan bantuan anggota tim Google Speech dan Google Brain. Korpus LibriTTS dirancang untuk penelitian TTS. Ini berasal dari materi asli (file audio mp3 dari LibriVox dan file teks dari Project Gutenberg) dari korpus LibriSpeech. Perbedaan utama dari korpus LibriSpeech tercantum di bawah ini:
- File audio berada pada kecepatan pengambilan sampel 24kHz.
- Pidato terpecah saat jeda kalimat.
- Teks asli dan normal disertakan.
- Informasi kontekstual (misalnya, kalimat tetangga) dapat diekstrak.
- Ucapan dengan kebisingan latar belakang yang signifikan dikecualikan.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://www.openslr.org/60
Kode sumber :
tfds.datasets.libritts.Builder
Versi :
-
1.0.1
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
78.42 GiB
Ukuran dataset :
271.41 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'dev_clean' | 5.736 |
'dev_other' | 4.613 |
'test_clean' | 4.837 |
'test_other' | 5.120 |
'train_clean100' | 33.236 |
'train_clean360' | 116.500 |
'train_other500' | 205.044 |
- Struktur fitur :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int64),
'text_normalized': Text(shape=(), dtype=string),
'text_original': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
bab_id | Tensor | int64 | ||
Indo | Tensor | rangkaian | ||
speaker_id | Tensor | int64 | ||
pidato | Audio | (Tidak ada,) | int64 | |
text_normalized | Teks | rangkaian | ||
text_original | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text_normalized', 'speech')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{zen2019libritts,
title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
booktitle = {Proc. Interspeech},
month = sep,
year = {2019},
doi = {10.21437/Interspeech.2019-2441},
}