- Descrição :
Este CSTR VCTK Corpus inclui dados de fala proferidos por 110 falantes de inglês com vários sotaques. Cada orador lê cerca de 400 frases, que foram selecionadas de um jornal, a passagem do arco-íris e um parágrafo de elicitação usado para o arquivo de sotaque de fala.
Observe que o texto 'p315' foi perdido devido a um erro no disco rígido.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://doi.org/10.7488/ds/2645
Código -fonte:
tfds.audio.Vctk
Versões :
-
1.0.0
: versão VCTK 0.92.0. -
1.0.1
(padrão): Corrige o tipo de dados de fala com dtype=tf.int16.
-
Tamanho do download :
10.94 GiB
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
sotaque | ClassLabel | int64 | ||
Gênero sexual | ClassLabel | int64 | ||
Eu iria | tensor | corda | ||
palestrante | ClassLabel | int64 | ||
Fala | áudio | (Nenhum,) | int16 | |
texto | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'speech')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (configuração padrão)
Descrição da configuração : Áudio gravado usando um microfone omnidirecional (DPA 4035). Contém ruídos de frequência muito baixa.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Tamanho do conjunto de dados :
39.87 GiB
Divisões :
Dividir | Exemplos |
---|---|
'train' | 44.455 |
- Exemplos ( tfds.as_dataframe ):
vctk/mic2
Descrição da configuração : Áudio gravado usando um microfone condensador de diafragma pequeno com largura de banda muito ampla (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Tamanho do conjunto de dados :
38.86 GiB
Divisões :
Dividir | Exemplos |
---|---|
'train' | 43.873 |
- Exemplos ( tfds.as_dataframe ):