- 説明:
LibriSpeech は、Daniel Povey の支援を受けて Vassil Panayotov によって作成された、サンプリング レート 16 kHz の約 1000 時間の読み上げ英語音声のコーパスです。データは、LibriVox プロジェクトのオーディオブックを読んで得られたもので、慎重にセグメント化および調整されています。
読み取りを高速化し、データセットのサイズを小さくするには、遅延オーディオ デコードを使用することをお勧めします: - tensorflow_io
ライブラリをインストールします: pip install tensorflow-io
- 遅延デコードを有効にします: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: http://www.openslr.org/12
ダウンロードサイズ:
57.14 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- 機能構造:
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
chapter_id | テンソル | int64 | ||
ID | テンソル | ストリング | ||
Speaker_id | テンソル | int64 | ||
スピーチ | オーディオ | (なし、) | int16 | |
文章 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('speech', 'text')
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (デフォルト設定)
構成の説明: デフォルトのデータセット。
バージョン:
-
2.1.1
(デフォルト): dtype=tf.int16 で音声データ型を修正します。 -
2.1.2
: 「lazy_decode」設定を追加。
-
データセットサイズ:
304.47 GiB
例( tfds.as_dataframe ):
librispeech/lazy_decode
構成の説明: 生のオーディオ データセット。
バージョン:
-
2.1.1
: 音声データ型を dtype=tf.int16 で修正。 -
2.1.2
(デフォルト): 「lazy_decode」構成を追加します。
-
データセットサイズ:
59.37 GiB
例( tfds.as_dataframe ): ありません。
- 説明:
LibriSpeech は、Daniel Povey の支援を受けて Vassil Panayotov によって作成された、サンプリング レート 16 kHz の約 1000 時間の読み上げ英語音声のコーパスです。データは、LibriVox プロジェクトのオーディオブックを読んで得られたもので、慎重にセグメント化および調整されています。
読み取りを高速化し、データセットのサイズを小さくするには、遅延オーディオ デコードを使用することをお勧めします: - tensorflow_io
ライブラリをインストールします: pip install tensorflow-io
- 遅延デコードを有効にします: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: http://www.openslr.org/12
ダウンロードサイズ:
57.14 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- 機能構造:
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
chapter_id | テンソル | int64 | ||
ID | テンソル | ストリング | ||
Speaker_id | テンソル | int64 | ||
スピーチ | オーディオ | (なし、) | int16 | |
文章 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('speech', 'text')
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (デフォルト設定)
構成の説明: デフォルトのデータセット。
バージョン:
-
2.1.1
(デフォルト): dtype=tf.int16 で音声データ型を修正します。 -
2.1.2
: 「lazy_decode」設定を追加。
-
データセットサイズ:
304.47 GiB
例( tfds.as_dataframe ):
librispeech/lazy_decode
構成の説明: 生のオーディオ データセット。
バージョン:
-
2.1.1
: 音声データ型を dtype=tf.int16 で修正。 -
2.1.2
(デフォルト): 「lazy_decode」構成を追加します。
-
データセットサイズ:
59.37 GiB
例( tfds.as_dataframe ): ありません。