vctk

Descriptif :

Ce corpus CSTR VCTK comprend des données vocales prononcées par 110 anglophones avec différents accents. Chaque locuteur lit environ 400 phrases, qui ont été sélectionnées à partir d'un journal, du passage arc-en-ciel et d'un paragraphe d'élicitation utilisé pour les archives de l'accent de la parole.

Notez que le texte 'p315' a été perdu en raison d'une erreur de disque dur.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://doi.org/10.7488/ds/2645
Code source : tfds.audio.Vctk
Versions :
- 1.0.0 : version VCTK 0.92.0.
- 1.0.1 (par défaut) : correction du type de données vocales avec dtype=tf.int16.
Taille du téléchargement : 10.94 GiB
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
accent	Étiquette de classe		int64
le genre	Étiquette de classe		int64
identifiant	Tenseur		chaîne de caractères
conférencier	Étiquette de classe		int64
parole	l'audio	(Aucun,)	int16
texte	Texte		chaîne de caractères

Touches supervisées (Voir as_supervised doc ): ('text', 'speech')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configuration par défaut)

Description de la configuration : Audio enregistré à l'aide d'un microphone omnidirectionnel (DPA 4035). Contient des bruits de très basse fréquence.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Taille du jeu de données : 39.87 GiB
Fractionnements :

Diviser	Exemples
`'train'`	44 455

Exemples ( tfds.as_dataframe ):

vctk/mic2

Description de la configuration : Audio enregistré à l'aide d'un microphone à condensateur à petit diaphragme et à très large bande passante (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Taille du jeu de données : 38.86 GiB
Fractionnements :

Diviser	Exemples
`'train'`	43 873

Exemples ( tfds.as_dataframe ):

vctk Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

vctk/mic1 (configuration par défaut)

vctk/mic2

vctk