vctk

  • Mô tả :

CSTR VCTK Corpus này bao gồm dữ liệu giọng nói được thốt ra bởi 110 người nói tiếng Anh với nhiều giọng khác nhau. Mỗi diễn giả đọc khoảng 400 câu, được chọn từ một tờ báo, đoạn cầu vồng và đoạn gợi ý được sử dụng để lưu trữ giọng nói.

Lưu ý rằng văn bản 'p315' đã bị mất do lỗi đĩa cứng.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
giọng LớpNhãn int64
giới tính LớpNhãn int64
Tôi tenxơ sợi dây
loa LớpNhãn int64
lời nói âm thanh (Không có,) int16
chữ Chữ sợi dây
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (cấu hình mặc định)

  • Mô tả cấu hình : Âm thanh được ghi bằng micrô đa hướng (DPA 4035). Chứa tiếng ồn tần số rất thấp.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Kích thước tập dữ liệu : 39.87 GiB

  • Chia tách :

Tách ra ví dụ
'train' 44,455

vctk/mic2

  • Mô tả cấu hình : Âm thanh được ghi bằng micrô điện dung có màng ngăn nhỏ với băng thông rất rộng (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Kích thước tập dữ liệu : 38.86 GiB

  • Chia tách :

Tách ra ví dụ
'train' 43,873