vctk

توضیحات :

این مجموعه CSTR VCTK شامل داده های گفتاری است که توسط 110 انگلیسی زبان با لهجه های مختلف بیان شده است. هر گوینده حدود 400 جمله را می خواند که از یک روزنامه، متن رنگین کمان و یک پاراگراف برانگیخته برای آرشیو لهجه گفتار انتخاب شده است.

توجه داشته باشید که متن 'p315' به دلیل خطای هارد دیسک گم شده است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://doi.org/10.7488/ds/2645
کد منبع : tfds.audio.Vctk
نسخه ها :
- 1.0.0 : انتشار VCTK 0.92.0.
- 1.0.1 (پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
حجم دانلود : 10.94 GiB
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
لهجه	ClassLabel		int64
جنسیت	ClassLabel		int64
شناسه	تانسور		رشته
گوینده	ClassLabel		int64
سخن، گفتار	سمعی	(هیچ یک،)	int16
متن	متن		رشته

کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('text', 'speech')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (پیکربندی پیش فرض)

توضیحات پیکربندی : صدای ضبط شده با استفاده از یک میکروفون همه جهته (DPA 4035). دارای نویزهای فرکانس بسیار پایین
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
حجم مجموعه داده : 39.87 GiB
تقسیم ها :

شکاف	مثال ها
`'train'`	44,455

مثال‌ها ( tfds.as_dataframe ):

vctk/mic2

توضیحات پیکربندی : صدا با استفاده از یک میکروفون خازنی دیافراگمی کوچک با پهنای باند بسیار وسیع (Sennheiser MKH 800) ضبط شده است.
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
حجم مجموعه داده : 38.86 GiB
تقسیم ها :

شکاف	مثال ها
`'train'`	43,873

مثال‌ها ( tfds.as_dataframe ):

vctk با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

vctk/mic1 (پیکربندی پیش فرض)

vctk/mic2

vctk