vctk

  • توضیحات :

این مجموعه CSTR VCTK شامل داده های گفتاری است که توسط 110 انگلیسی زبان با لهجه های مختلف بیان شده است. هر گوینده حدود 400 جمله را می خواند که از یک روزنامه، متن رنگین کمان و یک پاراگراف برانگیخته برای آرشیو لهجه گفتار انتخاب شده است.

توجه داشته باشید که متن 'p315' به دلیل خطای هارد دیسک گم شده است.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
لهجه ClassLabel int64
جنسیت ClassLabel int64
شناسه تانسور رشته
گوینده ClassLabel int64
سخن، گفتار سمعی (هیچ یک،) int16
متن متن رشته
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('text', 'speech')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (پیکربندی پیش فرض)

  • توضیحات پیکربندی : صدای ضبط شده با استفاده از یک میکروفون همه جهته (DPA 4035). دارای نویزهای فرکانس بسیار پایین

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • حجم مجموعه داده : 39.87 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 44,455

vctk/mic2

  • توضیحات پیکربندی : صدا با استفاده از یک میکروفون خازنی دیافراگمی کوچک با پهنای باند بسیار وسیع (Sennheiser MKH 800) ضبط شده است.

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • حجم مجموعه داده : 38.86 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 43,873