ljspeech

Mô tả :

Đây là bộ dữ liệu giọng nói thuộc phạm vi công cộng bao gồm 13.100 đoạn âm thanh ngắn của một người nói đọc các đoạn văn từ 7 cuốn sách phi hư cấu. Một phiên âm được cung cấp cho mỗi clip. Các clip có độ dài khác nhau từ 1 đến 10 giây và có tổng thời lượng khoảng 24 giờ.

Các văn bản được xuất bản từ năm 1884 đến 1964, và thuộc phạm vi công cộng. Đoạn âm thanh được dự án LibriVox ghi lại vào năm 2016-17 và cũng thuộc phạm vi công cộng.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://keithito.com/LJ-Speech-Dataset/
Mã nguồn : tfds.datasets.ljspeech.Builder
Phiên bản :
- 1.1.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
Kích thước tải xuống : 2.56 GiB
Kích thước tập dữ liệu : 10.73 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'train'`	13.100

Cấu trúc tính năng :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
Tôi	tenxơ		sợi dây
lời nói	âm thanh	(Không có,)	int16
chữ	Chữ		sợi dây
text_chuẩn hóa	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('text_normalized', 'speech')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

ljspeech Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

ljspeech