librispeech

  • 説明:

LibriSpeech は、Daniel Povey の支援を受けて Vassil Panayotov によって作成された、サンプリング レート 16 kHz の約 1000 時間の読み上げ英語音声のコーパスです。データは、LibriVox プロジェクトのオーディオブックを読んで得られたもので、慎重にセグメント化および調整されています。

読み取りを高速化し、データセットのサイズを小さくするには、遅延オーディオ デコードを使用することをお勧めします: - tensorflow_ioライブラリをインストールします: pip install tensorflow-io - 遅延デコードを有効にします: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

スプリット
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • 機能構造:
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
chapter_idテンソルint64
IDテンソルストリング
Speaker_idテンソルint64
スピーチオーディオ(なし、) int16
文章文章ストリング
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (デフォルト設定)

  • 構成の説明: デフォルトのデータセット。

  • バージョン:

    • 2.1.1 (デフォルト): dtype=tf.int16 で音声データ型を修正します。
    • 2.1.2 : 「lazy_decode」設定を追加。
  • データセットサイズ: 304.47 GiB

  • ( tfds.as_dataframe ):

librispeech/lazy_decode

  • 構成の説明: 生のオーディオ データセット。

  • バージョン:

    • 2.1.1 : 音声データ型を dtype=tf.int16 で修正。
    • 2.1.2 (デフォルト): 「lazy_decode」構成を追加します。
  • データセットサイズ: 59.37 GiB

  • ( tfds.as_dataframe ): ありません。

  • 説明:

LibriSpeech は、Daniel Povey の支援を受けて Vassil Panayotov によって作成された、サンプリング レート 16 kHz の約 1000 時間の読み上げ英語音声のコーパスです。データは、LibriVox プロジェクトのオーディオブックを読んで得られたもので、慎重にセグメント化および調整されています。

読み取りを高速化し、データセットのサイズを小さくするには、遅延オーディオ デコードを使用することをお勧めします: - tensorflow_ioライブラリをインストールします: pip install tensorflow-io - 遅延デコードを有効にします: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

スプリット
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • 機能構造:
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
chapter_idテンソルint64
IDテンソルストリング
Speaker_idテンソルint64
スピーチオーディオ(なし、) int16
文章文章ストリング
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (デフォルト設定)

  • 構成の説明: デフォルトのデータセット。

  • バージョン:

    • 2.1.1 (デフォルト): dtype=tf.int16 で音声データ型を修正します。
    • 2.1.2 : 「lazy_decode」設定を追加。
  • データセットサイズ: 304.47 GiB

  • ( tfds.as_dataframe ):

librispeech/lazy_decode

  • 構成の説明: 生のオーディオ データセット。

  • バージョン:

    • 2.1.1 : 音声データ型を dtype=tf.int16 で修正。
    • 2.1.2 (デフォルト): 「lazy_decode」構成を追加します。
  • データセットサイズ: 59.37 GiB

  • ( tfds.as_dataframe ): ありません。