discorso_comandi

  • Descrizione :

Un set di dati audio di parole pronunciate progettato per aiutare a formare e valutare i sistemi di individuazione delle parole chiave. Il suo obiettivo principale è fornire un modo per costruire e testare piccoli modelli che rilevano quando viene pronunciata una singola parola, da un insieme di dieci parole target, con il minor numero possibile di falsi positivi da rumore di fondo o discorsi non correlati. Si noti che nel treno e nel set di convalida, l'etichetta "sconosciuto" è molto più prevalente delle etichette delle parole target o del rumore di fondo. Una differenza rispetto alla versione di rilascio è la gestione dei segmenti silenziosi. Mentre nel set di test i segmenti di silenzio sono normali file da 1 secondo, nel training sono forniti come segmenti lunghi nella cartella "background_noise". Qui dividiamo questi rumori di fondo in clip da 1 secondo e conserviamo anche uno dei file per il set di convalida.

Diviso Esempi
'test' 4.890
'train' 85.511
'validation' 10.102
  • Struttura delle caratteristiche :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Audio Audio (Nessuno,) int16
etichetta ClassLabel int64
  • Citazione :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}