librispeech

Mô tả :

LibriSpeech là một kho văn bản dài khoảng 1000 giờ đọc bằng tiếng Anh với tốc độ lấy mẫu là 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc từ dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.

Bạn nên sử dụng giải mã âm thanh lười biếng để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io : pip install tensorflow-io - bật giải mã lười biếng: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.openslr.org/12
Mã nguồn : tfds.datasets.librispeech.Builder
Kích thước tải xuống : 57.14 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'dev_clean'`	2,703
`'dev_other'`	2.864
`'test_clean'`	2.620
`'test_other'`	2.939
`'train_clean100'`	28,539
`'train_clean360'`	104,014
`'train_other500'`	148,688

Cấu trúc tính năng :

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
chap_id	tenxơ		int64
Tôi	tenxơ		chuỗi
speaker_id	tenxơ		int64
phát biểu	âm thanh	(Không có,)	int16
chữ	Chữ		chuỗi

Các khóa được giám sát (Xem as_supervised doc ): ('speech', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/mặc định (cấu hình mặc định)

Mô tả cấu hình : Tập dữ liệu mặc định.
Phiên bản :
- 2.1.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
- 2.1.2 : Thêm cấu hình 'lazy_decode'.
Kích thước tập dữ liệu: 304.47 GiB
Ví dụ ( tfds.as_dataframe ):

librispeech/lazy_decode

Mô tả cấu hình : Tập dữ liệu âm thanh thô.
Phiên bản :
- 2.1.1 : Sửa kiểu dữ liệu giọng nói với dtype=tf.int16.
- 2.1.2 (mặc định): Thêm cấu hình 'lazy_decode'.
Kích thước tập dữ liệu : 59.37 GiB
Ví dụ ( tfds.as_dataframe ): Thiếu.

Mô tả :

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.openslr.org/12
Mã nguồn : tfds.datasets.librispeech.Builder
Kích thước tải xuống : 57.14 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'dev_clean'`	2,703
`'dev_other'`	2.864
`'test_clean'`	2.620
`'test_other'`	2.939
`'train_clean100'`	28,539
`'train_clean360'`	104,014
`'train_other500'`	148,688

Cấu trúc tính năng :

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
chap_id	tenxơ		int64
Tôi	tenxơ		chuỗi
speaker_id	tenxơ		int64
phát biểu	âm thanh	(Không có,)	int16
chữ	Chữ		chuỗi

Các khóa được giám sát (Xem as_supervised doc ): ('speech', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/mặc định (cấu hình mặc định)

Mô tả cấu hình : Tập dữ liệu mặc định.
Phiên bản :
- 2.1.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
- 2.1.2 : Thêm cấu hình 'lazy_decode'.
Kích thước tập dữ liệu: 304.47 GiB
Ví dụ ( tfds.as_dataframe ):

librispeech/lazy_decode

Mô tả cấu hình : Tập dữ liệu âm thanh thô.
Phiên bản :
- 2.1.1 : Sửa kiểu dữ liệu giọng nói với dtype=tf.int16.
- 2.1.2 (mặc định): Thêm cấu hình 'lazy_decode'.
Kích thước tập dữ liệu : 59.37 GiB
Ví dụ ( tfds.as_dataframe ): Thiếu.