- Descriptif :
Un ensemble de données à grande échelle pour l'identification du locuteur. Ces données sont collectées auprès de plus de 1 251 locuteurs, avec plus de 150 000 échantillons au total. Cette version contient la partie audio de l'ensemble de données voxceleb1.1.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
Code source :
tfds.audio.Voxceleb
Versions :
-
1.2.1
(par défaut) : ajouter le champ youtube_id
-
Taille du téléchargement :
4.68 MiB
Taille du jeu de données :
107.98 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
manual_dir doit contenir le fichier vox_dev_wav.zip. Les instructions pour télécharger ce fichier se trouvent dans http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html Cet ensemble de données nécessite une inscription.Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 7 972 |
'train' | 134 000 |
'validation' | 6 670 |
- Structure des fonctionnalités :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
l'audio | l'audio | (Aucun,) | int64 | |
étiquette | Étiquette de classe | int64 | ||
youtube_id | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('audio', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}