voice_commands

  • Описание :

Набор звуковых данных произносимых слов, предназначенный для обучения и оценки систем определения ключевых слов. Его основная цель — предоставить способ создания и тестирования небольших моделей, которые определяют, когда произносится одно слово из набора из десяти целевых слов, с минимальным количеством ложных срабатываний из-за фонового шума или несвязанной речи. Обратите внимание, что в наборе поезда и проверки метка «неизвестно» гораздо более распространена, чем метки целевых слов или фонового шума. Одним из отличий от версии выпуска является обработка сегментов молчания. В то время как в тестовом наборе сегменты тишины представляют собой обычные 1-секундные файлы, в обучении они представлены в виде длинных сегментов в папке «background_noise». Здесь мы разбиваем этот фоновый шум на 1-секундные клипы, а также сохраняем один из файлов для проверочного набора.

Расколоть Примеры
'test' 4890
'train' 85 511
'validation' 10 102
  • Структура функции :
FeaturesDict({
   
'audio': Audio(shape=(None,), dtype=int16),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
аудио Аудио (Никто,) int16
этикетка Метка класса int64
  • Цитата :
@article{speechcommandsv2,
   author
= { {Warden}, P.},
    title
= "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal
= {ArXiv e-prints},
  archivePrefix
= "arXiv",
  eprint
= {1804.03209},
  primaryClass
= "cs.CL",
  keywords
= {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year
= 2018,
    month
= apr,
    url
= {https://arxiv.org/abs/1804.03209},
}