- Descriptif :
Ce corpus CSTR VCTK comprend des données vocales prononcées par 110 anglophones avec différents accents. Chaque locuteur lit environ 400 phrases, qui ont été sélectionnées à partir d'un journal, du passage arc-en-ciel et d'un paragraphe d'élicitation utilisé pour les archives de l'accent de la parole.
Notez que le texte 'p315' a été perdu en raison d'une erreur de disque dur.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://doi.org/10.7488/ds/2645
Code source :
tfds.audio.Vctk
Versions :
-
1.0.0
: version VCTK 0.92.0. -
1.0.1
(par défaut) : correction du type de données vocales avec dtype=tf.int16.
-
Taille du téléchargement :
10.94 GiB
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
accent | Étiquette de classe | int64 | ||
le genre | Étiquette de classe | int64 | ||
identifiant | Tenseur | chaîne de caractères | ||
conférencier | Étiquette de classe | int64 | ||
parole | l'audio | (Aucun,) | int16 | |
texte | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('text', 'speech')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (configuration par défaut)
Description de la configuration : Audio enregistré à l'aide d'un microphone omnidirectionnel (DPA 4035). Contient des bruits de très basse fréquence.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Taille du jeu de données :
39.87 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 44 455 |
- Exemples ( tfds.as_dataframe ):
vctk/mic2
Description de la configuration : Audio enregistré à l'aide d'un microphone à condensateur à petit diaphragme et à très large bande passante (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Taille du jeu de données :
38.86 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 43 873 |
- Exemples ( tfds.as_dataframe ):