TFDS はCroissant 🥐 形式をサポートするようになりました。詳細については、ドキュメントをお読みください。

このページは Cloud Translation API によって翻訳されました。

ljspeech

説明:

これは、1 人の話者が 7 冊のノンフィクションの本からの文章を読んでいる 13,100 の短いオーディオクリップで構成される、パブリックドメインの音声データセットです。クリップごとにトランスクリプションが提供されます。クリップの長さは 1 ～ 10 秒で、合計の長さは約 24 時間です。

テキストは 1884 年から 1964 年の間に出版され、パブリックドメインになっています。音声は 2016 年から 2017 年に LibriVox プロジェクトによって録音され、パブリックドメインでもあります。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ：https: //keihito.com/LJ-Speech-Dataset/
ソースコード: tfds.datasets.ljspeech.Builder
バージョン:
- 1.1.1 (デフォルト): dtype=tf.int16 で音声データ型を修正します。
ダウンロードサイズ: 2.56 GiB
データセットサイズ: 10.73 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'train'`	13,100

機能構造:

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	形	Dtype	説明
	特徴辞書
ID	テンソル		ストリング
スピーチ	オーディオ	（なし、）	int16
文章	文章		ストリング
text_normalized	文章		ストリング

監視されたキー( as_supervised docを参照): ('text_normalized', 'speech')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2022-12-13 UTC。