ljfala

Descrição :

Este é um conjunto de dados de fala de domínio público que consiste em 13.100 clipes de áudio curtos de um único orador lendo passagens de 7 livros de não ficção. Uma transcrição é fornecida para cada clipe. Os clipes variam em duração de 1 a 10 segundos e têm uma duração total de aproximadamente 24 horas.

Os textos foram publicados entre 1884 e 1964 e são de domínio público. O áudio foi gravado em 2016-17 pelo projeto LibriVox e também é de domínio público.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://keithito.com/LJ-Speech-Dataset/
Código-fonte : tfds.datasets.ljspeech.Builder
Versões :
- 1.1.1 (padrão): Corrige o tipo de dados de fala com dtype=tf.int16.
Tamanho do download : 2.56 GiB
Tamanho do conjunto de dados : 10.73 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	13.100

Estrutura de recursos :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

Documentação do recurso :

Característica	Classe	Forma	Tipo D
	RecursosDict
Eu iria	tensor		corda
Fala	áudio	(Nenhum,)	int16
texto	Texto		corda
texto_normalizado	Texto		corda

Chaves supervisionadas (consulte o documento as_supervised ): ('text_normalized', 'speech')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):

Citação :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

ljfala Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

ljfala