speech_commands

  • Mô tả :

Tập dữ liệu âm thanh của các từ được nói được thiết kế để giúp đào tạo và đánh giá hệ thống dò tìm từ khóa. Mục tiêu chính của nó là cung cấp một cách để xây dựng và thử nghiệm các mô hình nhỏ giúp phát hiện khi nào một từ được nói, từ tập hợp mười từ đích, với càng ít dương tính giả càng tốt do tiếng ồn xung quanh hoặc lời nói không liên quan. Lưu ý rằng trong tập hợp quy tắc và xác thực, nhãn "không xác định" phổ biến hơn nhiều so với nhãn của các từ đích hoặc tạp âm nền. Một điểm khác biệt so với phiên bản phát hành là việc xử lý các phân đoạn im lặng. Trong khi thử nghiệm, các phân đoạn im lặng là các tệp 1 giây thông thường, trong quá trình đào tạo, chúng được cung cấp dưới dạng các phân đoạn dài trong thư mục "background_noise". Ở đây, chúng tôi chia những tiếng ồn nền này thành các clip 1 giây và cũng giữ một trong các tệp cho bộ xác thực.

Tách ra Các ví dụ
'test' 4.890
'train' 85.511
'validation' 10.102
  • Các tính năng :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • Trích dẫn :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}