speech_commands

  • Mô tả :

Tập dữ liệu âm thanh của các từ được nói được thiết kế để giúp đào tạo và đánh giá các hệ thống phát hiện từ khóa. Mục tiêu chính của nó là cung cấp một cách để xây dựng và thử nghiệm các mô hình nhỏ phát hiện khi một từ đơn lẻ được nói ra, từ một tập hợp mười từ mục tiêu, với càng ít kết quả dương tính giả càng tốt do tiếng ồn xung quanh hoặc lời nói không liên quan. Lưu ý rằng trong tập huấn luyện và xác thực, nhãn "không xác định" phổ biến hơn nhiều so với nhãn của các từ mục tiêu hoặc tiếng ồn xung quanh. Một điểm khác biệt so với phiên bản phát hành là việc xử lý các phân đoạn im lặng. Mặc dù trong tập kiểm tra, các phân đoạn im lặng là các tệp 1 giây thông thường, nhưng trong quá trình đào tạo, chúng được cung cấp dưới dạng các phân đoạn dài trong thư mục "background_noise". Ở đây, chúng tôi chia các tiếng ồn nền này thành các clip 1 giây và cũng giữ lại một trong các tệp cho bộ xác thực.

Tách ra ví dụ
'test' 4.890
'train' 85,511
'validation' 10,102
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Tài liệu tính năng :
Đặc tính Tầng lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
âm thanh âm thanh (Không có,) int16
nhãn LớpNhãn int64
  • trích dẫn :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}