vctk

  • Mô tả :

CSTR VCTK Corpus này bao gồm dữ liệu giọng nói được phát ra bởi 110 người nói tiếng Anh với nhiều trọng âm khác nhau. Mỗi diễn giả đọc khoảng 400 câu, được chọn từ một tờ báo, đoạn văn cầu vồng và một đoạn gợi cảm được sử dụng cho kho lưu trữ giọng nói.

Lưu ý rằng văn bản 'p315' đã bị mất do lỗi đĩa cứng.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
giọng ClassLabel tf.int64
giới tính ClassLabel tf.int64
Tôi Tensor tf.string
loa ClassLabel tf.int64
lời nói Âm thanh (Không có,) tf.int64
chữ Chữ tf.string
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (cấu hình mặc định)

  • Mô tả cấu hình : Âm thanh được ghi bằng micrô đa hướng (DPA 4035). Chứa tiếng ồn tần số rất thấp.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Kích thước tập dữ liệu : 39.87 GiB

  • Tách :

Tách ra Các ví dụ
'train' 44.455

vctk / mic2

  • Mô tả cấu hình : Âm thanh được ghi bằng micrô tụ màng nhỏ với băng thông rất rộng (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Kích thước tập dữ liệu: 38.86 GiB

  • Tách :

Tách ra Các ví dụ
'train' 43.873