ljhabla

  • Descripción :

Este es un conjunto de datos de voz de dominio público que consta de 13 100 clips de audio breves de un solo hablante que lee pasajes de 7 libros de no ficción. Se proporciona una transcripción para cada clip. Los clips varían en duración de 1 a 10 segundos y tienen una duración total de aproximadamente 24 horas.

Los textos se publicaron entre 1884 y 1964 y son de dominio público. El audio fue grabado en 2016-17 por el proyecto LibriVox y también es de dominio público.

Separar Ejemplos
'train' 13,100
  • Estructura de características :
FeaturesDict({
   
'id': string,
   
'speech': Audio(shape=(None,), dtype=int16),
   
'text': Text(shape=(), dtype=string),
   
'text_normalized': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Tensor cuerda
discurso Audio (Ninguna,) int16
texto Texto cuerda
texto_normalizado Texto cuerda
  • Cita :
@misc{ljspeech17,
  author      
= {Keith Ito},
  title        
= {The LJ Speech Dataset},
  howpublished
= {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year        
= 2017
}