वीसीटीके

  • विवरण :

इस CSTR VCTK कॉर्पस में 110 अंग्रेजी बोलने वालों द्वारा विभिन्न उच्चारणों के साथ बोले गए भाषण डेटा शामिल हैं। प्रत्येक वक्ता लगभग 400 वाक्यों को पढ़ता है, जो एक समाचार पत्र, इंद्रधनुष मार्ग और वाक् उच्चारण संग्रह के लिए उपयोग किए जाने वाले एक विशेष पैराग्राफ से चुने गए थे।

ध्यान दें कि हार्ड डिस्क त्रुटि के कारण 'p315' पाठ खो गया था।

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लहजा क्लासलेबल int64
लिंग क्लासलेबल int64
पहचान टेन्सर डोरी
वक्ता क्लासलेबल int64
भाषण ऑडियो (कोई भी नहीं,) int16
मूलपाठ मूलपाठ डोरी
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : एक सर्वदिशात्मक माइक्रोफ़ोन (DPA 4035) का उपयोग करके ऑडियो रिकॉर्ड किया गया। बहुत कम आवृत्ति शोर शामिल हैं।

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • डेटासेट का आकार : 39.87 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 44,455

वीसीटीके/माइक2

  • कॉन्फिग विवरण : बहुत व्यापक बैंडविड्थ (सेनहाइजर एमकेएच 800) के साथ एक छोटे डायाफ्राम कंडेनसर माइक्रोफोन का उपयोग करके ऑडियो रिकॉर्ड किया गया।

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • डेटासेट का आकार : 38.86 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 43,873