vctk

  • Descrição :

Este CSTR VCTK Corpus inclui dados de fala proferidos por 110 falantes de inglês com vários sotaques. Cada orador lê cerca de 400 frases, que foram selecionadas de um jornal, a passagem do arco-íris e um parágrafo de elicitação usado para o arquivo de sotaque de fala.

Observe que o texto 'p315' foi perdido devido a um erro no disco rígido.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
sotaque ClassLabel int64
Gênero sexual ClassLabel int64
Eu iria tensor corda
palestrante ClassLabel int64
Fala áudio (Nenhum,) int16
texto Texto corda
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configuração padrão)

  • Descrição da configuração : Áudio gravado usando um microfone omnidirecional (DPA 4035). Contém ruídos de frequência muito baixa.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Tamanho do conjunto de dados : 39.87 GiB

  • Divisões :

Dividir Exemplos
'train' 44.455

vctk/mic2

  • Descrição da configuração : Áudio gravado usando um microfone condensador de diafragma pequeno com largura de banda muito ampla (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Tamanho do conjunto de dados : 38.86 GiB

  • Divisões :

Dividir Exemplos
'train' 43.873