- Mô tả :
LibriSpeech là một kho văn bản dài khoảng 1000 giờ đọc bằng tiếng Anh với tốc độ lấy mẫu là 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc từ dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.
Bạn nên sử dụng giải mã âm thanh lười biếng để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io
: pip install tensorflow-io
- bật giải mã lười biếng: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.openslr.org/12
Mã nguồn :
tfds.datasets.librispeech.Builder
Kích thước tải xuống :
57.14 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- Cấu trúc tính năng :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chap_id | tenxơ | int64 | ||
Tôi | tenxơ | chuỗi | ||
speaker_id | tenxơ | int64 | ||
phát biểu | âm thanh | (Không có,) | int16 | |
chữ | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):('speech', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/mặc định (cấu hình mặc định)
Mô tả cấu hình : Tập dữ liệu mặc định.
Phiên bản :
-
2.1.1
(mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16. -
2.1.2
: Thêm cấu hình 'lazy_decode'.
-
Kích thước tập dữ liệu:
304.47 GiB
Ví dụ ( tfds.as_dataframe ):
librispeech/lazy_decode
Mô tả cấu hình : Tập dữ liệu âm thanh thô.
Phiên bản :
-
2.1.1
: Sửa kiểu dữ liệu giọng nói với dtype=tf.int16. -
2.1.2
(mặc định): Thêm cấu hình 'lazy_decode'.
-
Kích thước tập dữ liệu :
59.37 GiB
Ví dụ ( tfds.as_dataframe ): Thiếu.
- Mô tả :
LibriSpeech là một kho văn bản dài khoảng 1000 giờ đọc bằng tiếng Anh với tốc độ lấy mẫu là 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc từ dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.
Bạn nên sử dụng giải mã âm thanh lười biếng để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io
: pip install tensorflow-io
- bật giải mã lười biếng: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.openslr.org/12
Mã nguồn :
tfds.datasets.librispeech.Builder
Kích thước tải xuống :
57.14 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- Cấu trúc tính năng :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chap_id | tenxơ | int64 | ||
Tôi | tenxơ | chuỗi | ||
speaker_id | tenxơ | int64 | ||
phát biểu | âm thanh | (Không có,) | int16 | |
chữ | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):('speech', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/mặc định (cấu hình mặc định)
Mô tả cấu hình : Tập dữ liệu mặc định.
Phiên bản :
-
2.1.1
(mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16. -
2.1.2
: Thêm cấu hình 'lazy_decode'.
-
Kích thước tập dữ liệu:
304.47 GiB
Ví dụ ( tfds.as_dataframe ):
librispeech/lazy_decode
Mô tả cấu hình : Tập dữ liệu âm thanh thô.
Phiên bản :
-
2.1.1
: Sửa kiểu dữ liệu giọng nói với dtype=tf.int16. -
2.1.2
(mặc định): Thêm cấu hình 'lazy_decode'.
-
Kích thước tập dữ liệu :
59.37 GiB
Ví dụ ( tfds.as_dataframe ): Thiếu.