discorso_comandi

  • Descrizione :

Un set di dati audio di parole pronunciate progettato per aiutare a formare e valutare i sistemi di individuazione delle parole chiave. Il suo obiettivo principale è fornire un modo per costruire e testare piccoli modelli che rilevano quando viene pronunciata una singola parola, da un insieme di dieci parole target, con il minor numero possibile di falsi positivi da rumore di fondo o discorsi non correlati. Si noti che nel treno e nel set di convalida, l'etichetta "sconosciuto" è molto più prevalente delle etichette delle parole target o del rumore di fondo. Una differenza rispetto alla versione di rilascio è la gestione dei segmenti silenziosi. Mentre nel set di test i segmenti di silenzio sono normali file da 1 secondo, nel training sono forniti come segmenti lunghi nella cartella "background_noise". Qui dividiamo questi rumori di fondo in clip da 1 secondo e conserviamo anche uno dei file per il set di convalida.

Diviso Esempi
'test' 4.890
'train' 85.511
'validation' 10.102
  • Struttura delle caratteristiche :
FeaturesDict({
   
'audio': Audio(shape=(None,), dtype=int16),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Audio Audio (Nessuno,) int16
etichetta ClassLabel int64
  • Citazione :
@article{speechcommandsv2,
   author
= { {Warden}, P.},
    title
= "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal
= {ArXiv e-prints},
  archivePrefix
= "arXiv",
  eprint
= {1804.03209},
  primaryClass
= "cs.CL",
  keywords
= {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year
= 2018,
    month
= apr,
    url
= {https://arxiv.org/abs/1804.03209},
}