- Mô tả :
Đây là bộ dữ liệu giọng nói thuộc phạm vi công cộng bao gồm 13.100 đoạn âm thanh ngắn của một người nói đọc các đoạn văn từ 7 cuốn sách phi hư cấu. Một phiên âm được cung cấp cho mỗi clip. Các clip có độ dài khác nhau từ 1 đến 10 giây và có tổng thời lượng khoảng 24 giờ.
Các văn bản được xuất bản từ năm 1884 đến 1964, và thuộc phạm vi công cộng. Đoạn âm thanh được dự án LibriVox ghi lại vào năm 2016-17 và cũng thuộc phạm vi công cộng.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://keithito.com/LJ-Speech-Dataset/
Mã nguồn :
tfds.datasets.ljspeech.Builder
Phiên bản :
-
1.1.1
(mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
-
Kích thước tải xuống :
2.56 GiB
Kích thước tập dữ liệu :
10.73 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 13.100 |
- Cấu trúc tính năng :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | tenxơ | sợi dây | ||
lời nói | âm thanh | (Không có,) | int16 | |
chữ | Chữ | sợi dây | ||
text_chuẩn hóa | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('text_normalized', 'speech')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}