- Descriptif :
LibriTTS est un corpus anglais multi-locuteurs d'environ 585 heures de discours anglais lu à une fréquence d'échantillonnage de 24 kHz, préparé par Heiga Zen avec l'aide des membres de l'équipe Google Speech et Google Brain. Le corpus LibriTTS est conçu pour la recherche TTS. Il est dérivé des matériaux originaux (fichiers audio mp3 de LibriVox et fichiers texte du projet Gutenberg) du corpus LibriSpeech. Les principales différences avec le corpus LibriSpeech sont listées ci-dessous :
- Les fichiers audio sont à un taux d'échantillonnage de 24 kHz.
- Le discours est divisé aux pauses de phrase.
- Les textes originaux et normalisés sont inclus.
- Des informations contextuelles (par exemple, des phrases voisines) peuvent être extraites.
- Les énoncés avec un bruit de fond important sont exclus.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://www.openslr.org/60
Code source :
tfds.datasets.libritts.Builder
Versions :
-
1.0.1
(par défaut) : aucune note de version.
-
Taille du téléchargement :
78.42 GiB
Taille du jeu de données :
271.41 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'dev_clean' | 5 736 |
'dev_other' | 4 613 |
'test_clean' | 4 837 |
'test_other' | 5 120 |
'train_clean100' | 33 236 |
'train_clean360' | 116 500 |
'train_other500' | 205 044 |
- Structure des fonctionnalités :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int64),
'text_normalized': Text(shape=(), dtype=string),
'text_original': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
chapitre_id | Tenseur | int64 | ||
identifiant | Tenseur | chaîne de caractères | ||
id_haut-parleur | Tenseur | int64 | ||
parole | l'audio | (Aucun,) | int64 | |
text_normalized | Texte | chaîne de caractères | ||
text_original | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('text_normalized', 'speech')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{zen2019libritts,
title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
booktitle = {Proc. Interspeech},
month = sep,
year = {2019},
doi = {10.21437/Interspeech.2019-2441},
}