librispeech

  • Mô tả :

LibriSpeech là kho ngữ liệu của bài nói tiếng Anh đã đọc khoảng 1000 giờ với tốc độ lấy mẫu là 16 kHz, được chuẩn bị bởi Vassil Panayotov với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ các sách nói đã đọc từ dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.

  • Trang chủ : http://www.openslr.org/12

  • Mã nguồn : tfds.audio.Librispeech

  • Các phiên bản :

    • 2.1.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : 57.14 GiB

  • Kích thước tập dữ liệu: 304.47 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'dev_clean' 2.703
'dev_other' 2,864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Cấu trúc tính năng :
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
chap_id Tensor tf.int64
Tôi Tensor tf.string
Speaker_id Tensor tf.int64
phát biểu Âm thanh (Không có,) tf.int64
bản văn Bản văn tf.string
  • Trích dẫn :
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}