- Mô tả:
LibriTTS là kho ngữ liệu tiếng Anh dành cho nhiều người nói gồm khoảng 585 giờ đọc tiếng Anh ở tốc độ lấy mẫu 24kHz, do Heiga Zen chuẩn bị với sự hỗ trợ của các thành viên nhóm Google Speech và Google Brain. Kho ngữ liệu LibriTTS được thiết kế cho nghiên cứu TTS. Nó có nguồn gốc từ các tài liệu gốc (tệp âm thanh mp3 từ LibriVox và tệp văn bản từ Dự án Gutenberg) của kho ngữ liệu LibriSpeech. Những điểm khác biệt chính so với kho tài liệu LibriSpeech được liệt kê dưới đây:
- Các tệp âm thanh ở tốc độ lấy mẫu 24kHz.
- Bài phát biểu được tách ra ở các dấu ngắt câu.
- Cả văn bản gốc và văn bản chuẩn hóa đều được bao gồm.
- Thông tin ngữ cảnh (ví dụ, các câu lân cận) có thể được trích xuất.
- Các lỗi sai lệch có tiếng ồn xung quanh đáng kể được loại trừ.
Trang chủ: http://www.openslr.org/60
Source code:
tfds.audio.Libritts
phiên bản:
-
1.0.1
(mặc định): Không có ghi chú phát hành.
-
Dung lượng tải về:
78.42 GiB
Kích thước tập dữ liệu:
271.41 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'dev_clean' | 5.736 |
'dev_other' | 4,613 |
'test_clean' | 4.837 |
'test_other' | 5.120 |
'train_clean100' | 33,236 |
'train_clean360' | 116.500 |
'train_other500' | 205.044 |
- Các tính năng:
FeaturesDict({
'chapter_id': tf.int64,
'id': tf.string,
'speaker_id': tf.int64,
'speech': Audio(shape=(None,), dtype=tf.int64),
'text_normalized': Text(shape=(), dtype=tf.string),
'text_original': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('text_normalized', 'speech')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn:
@inproceedings{zen2019libritts,
title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
booktitle = {Proc. Interspeech},
month = sep,
year = {2019},
doi = {10.21437/Interspeech.2019-2441},
}