리브리트

  • 설명 :

LibriTTS는 Heiga Zen이 Google Speech 및 Google Brain 팀원의 도움을 받아 준비한 24kHz 샘플링 속도로 약 585시간 동안 읽은 영어 음성의 다중 화자 영어 코퍼스입니다. LibriTTS 코퍼스는 TTS 연구를 위해 설계되었습니다. LibriSpeech 말뭉치의 원본 자료(LibriVox의 mp3 오디오 파일 및 Project Gutenberg의 텍스트 파일)에서 파생됩니다. LibriSpeech 코퍼스와의 주요 차이점은 다음과 같습니다.

  1. 오디오 파일은 24kHz 샘플링 속도입니다.
  2. 문장이 끊어지면 음성이 분리됩니다.
  3. 원본과 정규화된 텍스트가 모두 포함되어 있습니다.
  4. 컨텍스트 정보(예: 인접 문장)를 추출할 수 있습니다.
  5. 상당한 배경 소음이 있는 발화는 제외됩니다.
나뉘다
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • 기능 구조 :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
chapter_id 텐서 int64
ID 텐서
speaker_id 텐서 int64
연설 오디오 (없음,) int64
text_normalized 텍스트
text_original 텍스트
  • 인용 :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}