vctk

Deskripsi :

CSTR VCTK Corpus ini mencakup data ucapan yang diucapkan oleh 110 penutur bahasa Inggris dengan berbagai aksen. Setiap pembicara membacakan sekitar 400 kalimat, yang dipilih dari surat kabar, kutipan pelangi, dan paragraf elisitasi yang digunakan untuk arsip aksen ucapan.

Perhatikan bahwa teks 'p315' hilang karena kesalahan hard disk.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://doi.org/10.7488/ds/2645
Kode sumber : tfds.audio.Vctk
Versi :
- 1.0.0 : VCTK rilis 0.92.0.
- 1.0.1 (default): Perbaiki tipe data ucapan dengan dtype=tf.int16.
Ukuran unduhan : 10.94 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
aksen	LabelKelas		int64
jenis kelamin	LabelKelas		int64
Indo	Tensor		rangkaian
pembicara	LabelKelas		int64
pidato	Audio	(Tidak ada,)	int16
teks	Teks		rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'speech')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (konfigurasi default)

Deskripsi konfigurasi : Audio direkam menggunakan mikrofon omni-directional (DPA 4035). Berisi suara frekuensi sangat rendah.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Ukuran dataset : 39.87 GiB
Perpecahan :

Membelah	Contoh
`'train'`	44.455

Contoh ( tfds.as_dataframe ):

vctk/mic2

Deskripsi konfigurasi : Audio direkam menggunakan mikrofon kondensor diafragma kecil dengan bandwidth sangat lebar (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Ukuran dataset : 38.86 GiB
Perpecahan :

Membelah	Contoh
`'train'`	43.873

Contoh ( tfds.as_dataframe ):

vctk Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

vctk/mic1 (konfigurasi default)

vctk/mic2

vctk