- توضیحات :
این مجموعه CSTR VCTK شامل داده های گفتاری است که توسط 110 انگلیسی زبان با لهجه های مختلف بیان شده است. هر گوینده حدود 400 جمله را می خواند که از یک روزنامه، متن رنگین کمان و یک پاراگراف برانگیخته برای آرشیو لهجه گفتار انتخاب شده است.
توجه داشته باشید که متن 'p315' به دلیل خطای هارد دیسک گم شده است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://doi.org/10.7488/ds/2645
کد منبع :
tfds.audio.Vctk
نسخه ها :
-
1.0.0
: انتشار VCTK 0.92.0. -
1.0.1
(پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
-
حجم دانلود :
10.94 GiB
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
لهجه | ClassLabel | int64 | ||
جنسیت | ClassLabel | int64 | ||
شناسه | تانسور | رشته | ||
گوینده | ClassLabel | int64 | ||
سخن، گفتار | سمعی | (هیچ یک،) | int16 | |
متن | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
نظارت شده مراجعه کنید):('text', 'speech')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (پیکربندی پیش فرض)
توضیحات پیکربندی : صدای ضبط شده با استفاده از یک میکروفون همه جهته (DPA 4035). دارای نویزهای فرکانس بسیار پایین
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
حجم مجموعه داده :
39.87 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 44,455 |
- مثالها ( tfds.as_dataframe ):
vctk/mic2
توضیحات پیکربندی : صدا با استفاده از یک میکروفون خازنی دیافراگمی کوچک با پهنای باند بسیار وسیع (Sennheiser MKH 800) ضبط شده است.
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
حجم مجموعه داده :
38.86 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 43,873 |
- مثالها ( tfds.as_dataframe ):