- Mô tả :
Tập dữ liệu âm thanh của các từ được nói được thiết kế để giúp đào tạo và đánh giá các hệ thống phát hiện từ khóa. Mục tiêu chính của nó là cung cấp một cách để xây dựng và thử nghiệm các mô hình nhỏ phát hiện khi một từ đơn lẻ được nói ra, từ một tập hợp mười từ mục tiêu, với càng ít kết quả dương tính giả càng tốt do tiếng ồn xung quanh hoặc lời nói không liên quan. Lưu ý rằng trong tập huấn luyện và xác thực, nhãn "không xác định" phổ biến hơn nhiều so với nhãn của các từ mục tiêu hoặc tiếng ồn xung quanh. Một điểm khác biệt so với phiên bản phát hành là việc xử lý các phân đoạn im lặng. Mặc dù trong tập kiểm tra, các phân đoạn im lặng là các tệp 1 giây thông thường, nhưng trong quá trình đào tạo, chúng được cung cấp dưới dạng các phân đoạn dài trong thư mục "background_noise". Ở đây, chúng tôi chia các tiếng ồn nền này thành các clip 1 giây và cũng giữ lại một trong các tệp cho bộ xác thực.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://arxiv.org/abs/1804.03209
Mã nguồn :
tfds.datasets.speech_commands.Builder
Phiên bản :
-
0.0.3
(mặc định): Sửa kiểu dữ liệu âm thanh bằng dtype=tf.int16.
-
Kích thước tải xuống :
2.37 GiB
Kích thước tập dữ liệu :
8.17 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 4.890 |
'train' | 85,511 |
'validation' | 10,102 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (Không có,) | int16 | |
nhãn | LớpNhãn | int64 |
Các khóa được giám sát (Xem
as_supervised
doc ):('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}