ljspeech

  • Mô tả:

Đây là tập dữ liệu giọng nói trên miền công cộng bao gồm 13.100 đoạn âm thanh ngắn của một người nói đọc các đoạn từ 7 cuốn sách phi hư cấu. Một bản ghi âm được cung cấp cho mỗi clip. Các clip có độ dài khác nhau từ 1 đến 10 giây và có tổng thời lượng khoảng 24 giờ.

Các văn bản được xuất bản từ năm 1884 đến năm 1964, và thuộc phạm vi công cộng. Âm thanh được ghi lại vào năm 2016-17 bởi dự án LibriVox và cũng thuộc miền công cộng.

Tách ra Các ví dụ
'train' 13.100
  • Các tính năng:
FeaturesDict({
    'id': tf.string,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
    'text_normalized': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}