nói_digit

Mô tả :

Một bộ dữ liệu âm thanh miễn phí về các chữ số được nói. Hãy nghĩ đến MNIST cho âm thanh.

Một bộ dữ liệu âm thanh/lời nói đơn giản bao gồm các bản ghi các chữ số được nói trong tệp wav ở 8kHz. Các bản ghi âm được cắt bớt để chúng có khoảng lặng gần như tối thiểu ở phần đầu và phần cuối.

5 loa
2.500 bản ghi (50 của mỗi chữ số cho mỗi loa)
phát âm tiếng anh

Các tệp được đặt tên theo định dạng sau: {digitLabel} { speakerName} {index}.wav

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/Jakobovski/free-spoken-digit-dataset
Mã nguồn : tfds.datasets.spoken_digit.Builder
Phiên bản :
- 1.0.9 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 11.42 MiB
Kích thước tập dữ liệu : 45.68 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'train'`	2.500

Cấu trúc tính năng :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Tài liệu tính năng :

Đặc tính	Tầng lớp	Hình dạng	Dtype
	Tính năngDict
âm thanh	âm thanh	(Không có,)	int64
âm thanh/tên tệp	Chữ		chuỗi
nhãn	LớpNhãn		int64

Các khóa được giám sát (Xem as_supervised doc ): ('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}