vctk

Descrição :

Este CSTR VCTK Corpus inclui dados de fala proferidos por 110 falantes de inglês com vários sotaques. Cada orador lê cerca de 400 frases, que foram selecionadas de um jornal, a passagem do arco-íris e um parágrafo de elicitação usado para o arquivo de sotaque de fala.

Observe que o texto 'p315' foi perdido devido a um erro no disco rígido.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://doi.org/10.7488/ds/2645
Código -fonte: tfds.audio.Vctk
Versões :
- 1.0.0 : versão VCTK 0.92.0.
- 1.0.1 (padrão): Corrige o tipo de dados de fala com dtype=tf.int16.
Tamanho do download : 10.94 GiB
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
sotaque	ClassLabel		int64
Gênero sexual	ClassLabel		int64
Eu iria	tensor		corda
palestrante	ClassLabel		int64
Fala	áudio	(Nenhum,)	int16
texto	Texto		corda

Chaves supervisionadas (consulte o documento as_supervised ): ('text', 'speech')
Figura ( tfds.show_examples ): Não suportado.
Citação :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configuração padrão)

Descrição da configuração : Áudio gravado usando um microfone omnidirecional (DPA 4035). Contém ruídos de frequência muito baixa.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Tamanho do conjunto de dados : 39.87 GiB
Divisões :

Dividir	Exemplos
`'train'`	44.455

Exemplos ( tfds.as_dataframe ):

vctk/mic2

Descrição da configuração : Áudio gravado usando um microfone condensador de diafragma pequeno com largura de banda muito ampla (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Tamanho do conjunto de dados : 38.86 GiB
Divisões :

Dividir	Exemplos
`'train'`	43.873

Exemplos ( tfds.as_dataframe ):

vctk Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

vctk/mic1 (configuração padrão)

vctk/mic2

vctk