voxforge

  • Descrição :

VoxForge é um conjunto de dados de classificação de idiomas. Consiste em clipes de áudio enviados pelo usuário ao site. Nesta versão, os dados de 6 idiomas são coletados - inglês, espanhol, francês, alemão, russo e italiano. Como o site é atualizado constantemente e para fins de reprodutibilidade, este lançamento contém apenas gravações enviadas antes de 2020-01-01. As amostras são divididas entre treinamento, validação e teste para que as amostras de cada alto-falante pertençam exatamente a uma divisão.

  • Documentação Adicional : Explore em Papers With Code

  • Homepage : http://www.voxforge.org/

  • Código -fonte: tfds.audio.Voxforge

  • Versões :

    • 1.0.0 (padrão): sem notas de versão.
  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : Unknown size

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    O VoxForge requer o download manual dos arquivos de áudio. A lista completa de arquivos pode ser encontrada em https://storage.googleapis.com/tfds-data/downloads/voxforge/voxforge_urls.txt Pode ser baixado usando o seguinte comando: wget -i voxforge_urls.txt -x Observe que o download e construir o conjunto de dados localmente requer ~ 100 GB de espaço em disco (mas apenas ~ 60 GB serão usados ​​permanentemente).

  • Armazenado em cache automaticamente ( documentação ): Desconhecido

  • Divisões :

Dividir Exemplos
  • Estrutura de recursos :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'speaker_id': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
áudio áudio (Nenhum,) int64
etiqueta ClassLabel int64
speaker_id tensor corda
@article{maclean2018voxforge,
  title={Voxforge},
  author={MacLean, Ken},
  journal={Ken MacLean.[Online]. Available: http://www.voxforge.org/home.[Acedido em 2012]},
  year={2018}
}