vctk

説明:

この CSTR VCTK コーパスには、110 人の英語話者がさまざまなアクセントで発話した音声データが含まれています。各スピーカーは、新聞、虹のパッセージ、およびスピーチアクセントのアーカイブに使用された引き出しパラグラフから選択された約 400 のセンテンスを読み上げます。

「p315」テキストは、ハードディスクエラーのために失われたことに注意してください。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://doi.org/10.7488/ds/2645
ソースコード: tfds.audio.Vctk
バージョン:
- 1.0.0 : VCTK リリース 0.92.0。
- 1.0.1 (デフォルト): dtype=tf.int16 で音声データ型を修正します。
ダウンロードサイズ: 10.94 GiB
自動キャッシュ(ドキュメント): いいえ
機能構造:

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
アクセント	クラスラベル		int64
性別	クラスラベル		int64
ID	テンソル		ストリング
スピーカー	クラスラベル		int64
スピーチ	オーディオ	（なし、）	int16
文章	文章		ストリング

監視されたキー( as_supervised docを参照): ('text', 'speech')
図( tfds.show_examples ): サポートされていません。
引用：

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (デフォルト構成)

構成の説明: 無指向性マイク (DPA 4035) を使用して録音された音声。非常に低周波のノイズが含まれています。
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
データセットサイズ: 39.87 GiB
スプリット:

スプリット	例
`'train'`	44,455

例( tfds.as_dataframe ):

vctk/mic2

構成の説明: 帯域幅が非常に広いスモールダイアフラムコンデンサーマイク (Sennheiser MKH 800) を使用して録音されたオーディオ。
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
データセットサイズ: 38.86 GiB
スプリット:

スプリット	例
`'train'`	43,873

例( tfds.as_dataframe ):

vctk コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

vctk/mic1 (デフォルト構成)

vctk/mic2

vctk