commandes_vocales

Descriptif :

Un ensemble de données audio de mots parlés conçu pour aider à former et à évaluer les systèmes de repérage de mots clés. Son objectif principal est de fournir un moyen de construire et de tester de petits modèles qui détectent quand un seul mot est prononcé, à partir d'un ensemble de dix mots cibles, avec aussi peu de faux positifs que possible provenant du bruit de fond ou de la parole sans rapport. Notez que dans l'ensemble de train et de validation, l'étiquette "inconnu" est beaucoup plus répandue que les étiquettes des mots cibles ou du bruit de fond. Une différence par rapport à la version finale est la gestion des segments silencieux. Alors que dans l'ensemble de test, les segments de silence sont des fichiers réguliers d'une seconde, dans la formation, ils sont fournis sous forme de longs segments sous le dossier "background_noise". Ici, nous divisons ces bruits de fond en clips d'une seconde et gardons également l'un des fichiers pour le jeu de validation.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://arxiv.org/abs/1804.03209
Code source : tfds.datasets.speech_commands.Builder
Versions :
- 0.0.3 (par défaut) : correction du type de données audio avec dtype=tf.int16.
Taille du téléchargement : 2.37 GiB
Taille du jeu de données : 8.17 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	4 890
`'train'`	85 511
`'validation'`	10 102

Structure des fonctionnalités :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
l'audio	l'audio	(Aucun,)	int16
étiquette	Étiquette de classe		int64

Touches supervisées (Voir as_supervised doc ): ('audio', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}

commandes_vocales Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

commandes_vocales