リブリッツ

  • 説明:

LibriTTS は、Google Speech および Google Brain チーム メンバーの支援を受けて Heiga Zen によって作成された、24kHz のサンプリング レートで約 585 時間の読み上げられた英語音声のマルチスピーカー英語コーパスです。 LibriTTS コーパスは、TTS 研究用に設計されています。これは、LibriSpeech コーパスの元の資料 (LibriVox の mp3 オーディオ ファイルと Project Gutenberg のテキスト ファイル) から派生したものです。 LibriSpeech コーパスとの主な違いは次のとおりです。

  1. オーディオ ファイルのサンプリング レートは 24kHz です。
  2. スピーチは文の区切りで分割されます。
  3. オリジナルと正規化されたテキストの両方が含まれています。
  4. 文脈情報 (例えば、隣接する文) を抽出できます。
  5. バックグラウンド ノイズが大きい発話は除外されます。
スプリット
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • 機能構造:
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
chapter_idテンソルint64
IDテンソルストリング
Speaker_idテンソルint64
スピーチオーディオ(なし、) int64
text_normalized文章ストリング
text_original文章ストリング
  • 引用
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}