- Açıklama :
Bu CSTR VCTK Corpus, 110 İngilizce konuşan kişi tarafından çeşitli aksanlarla dile getirilen konuşma verilerini içerir. Her konuşmacı bir gazeteden, gökkuşağı pasajından ve konuşma aksanı arşivi için kullanılan bir çıkarım paragrafından seçilen yaklaşık 400 cümleyi okur.
'p315' metninin bir sabit disk hatası nedeniyle kaybolduğunu unutmayın.
Ek Belgeler : Belgeleri Keşfedin
Anasayfa : https://doi.org/10.7488/ds/2645
Kaynak kodu :
tfds.audio.Vctksürümler :
-
1.0.0: VCTK sürümü 0.92.0. -
1.0.1(varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin.
-
İndirme boyutu :
10.94 GiBOtomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Tanım |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| Aksan | SınıfEtiketi | int64 | ||
| Cinsiyet | SınıfEtiketi | int64 | ||
| İD | tensör | sicim | ||
| konuşmacı | SınıfEtiketi | int64 | ||
| konuşma | Ses | (Hiçbiri,) | int16 | |
| Metin | Metin | sicim |
Denetlenen tuşlar (Bkz
as_superviseddoc ):('text', 'speech')Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (varsayılan yapılandırma)
Yapılandırma açıklaması : Çok yönlü mikrofon (DPA 4035) kullanılarak kaydedilen ses. Çok düşük frekanslı sesler içerir.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994Veri kümesi boyutu :
39.87 GiBbölmeler :
| Bölmek | örnekler |
|---|---|
'train' | 44.455 |
- Örnekler ( tfds.as_dataframe ):
vctk/mic2
Yapılandırma açıklaması : Çok geniş bant genişliğine (Sennheiser MKH 800) sahip küçük diyaframlı yoğunlaştırıcı mikrofon kullanılarak kaydedilen ses.
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.Veri kümesi boyutu :
38.86 GiBbölmeler :
| Bölmek | örnekler |
|---|---|
'train' | 43.873 |
- Örnekler ( tfds.as_dataframe ):