commandes_vocales

  • Descriptif :

Un ensemble de données audio de mots parlés conçu pour aider à former et à évaluer les systèmes de repérage de mots clés. Son objectif principal est de fournir un moyen de construire et de tester de petits modèles qui détectent quand un seul mot est prononcé, à partir d'un ensemble de dix mots cibles, avec aussi peu de faux positifs que possible provenant du bruit de fond ou de la parole sans rapport. Notez que dans l'ensemble de train et de validation, l'étiquette "inconnu" est beaucoup plus répandue que les étiquettes des mots cibles ou du bruit de fond. Une différence par rapport à la version finale est la gestion des segments silencieux. Alors que dans l'ensemble de test, les segments de silence sont des fichiers réguliers d'une seconde, dans la formation, ils sont fournis sous forme de longs segments sous le dossier "background_noise". Ici, nous divisons ces bruits de fond en clips d'une seconde et gardons également l'un des fichiers pour le jeu de validation.

Diviser Exemples
'test' 4 890
'train' 85 511
'validation' 10 102
  • Structure des fonctionnalités :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
l'audio l'audio (Aucun,) int16
étiquette Étiquette de classe int64
  • Citation :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}