이스피치

  • 설명 :

이것은 7권의 논픽션 책에서 구절을 읽는 단일 화자의 짧은 오디오 클립 13,100개로 구성된 공개 도메인 음성 데이터 세트입니다. 각 클립에 대한 전사가 제공됩니다. 클립의 길이는 1초에서 10초까지 다양하며 총 길이는 약 24시간입니다.

텍스트는 1884년에서 1964년 사이에 출판되었으며 공개 도메인에 있습니다. 오디오는 LibriVox 프로젝트에 의해 2016-17년에 녹음되었으며 공개 도메인에도 있습니다.

나뉘다
'train' 13,100
  • 기능 구조 :
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텐서
연설 오디오 (없음,) 정수16
텍스트 텍스트
text_normalized 텍스트
  • 인용 :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}