comandos de fala

  • Descrição :

Um conjunto de dados de áudio de palavras faladas projetado para ajudar a treinar e avaliar os sistemas de detecção de palavras-chave. Seu objetivo principal é fornecer uma maneira de construir e testar pequenos modelos que detectam quando uma única palavra é falada, a partir de um conjunto de dez palavras-alvo, com o menor número possível de falsos positivos de ruído de fundo ou fala não relacionada. Observe que no conjunto de treinamento e validação, o rótulo "desconhecido" é muito mais prevalente do que os rótulos das palavras-alvo ou do ruído de fundo. Uma diferença da versão de lançamento é a manipulação de segmentos silenciosos. Enquanto no conjunto de teste os segmentos de silêncio são arquivos regulares de 1 segundo, no treinamento eles são fornecidos como segmentos longos na pasta "background_noise". Aqui, dividimos esses ruídos de fundo em clipes de 1 segundo e também mantemos um dos arquivos para o conjunto de validação.

Dividir Exemplos
'test' 4.890
'train' 85.511
'validation' 10.102
  • Estrutura de recursos :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
áudio áudio (Nenhum,) int16
rótulo ClassLabel int64
  • Citação :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}