- Mô tả :
CSTR VCTK Corpus này bao gồm dữ liệu giọng nói được phát ra bởi 110 người nói tiếng Anh với nhiều trọng âm khác nhau. Mỗi diễn giả đọc khoảng 400 câu, được chọn từ một tờ báo, đoạn văn cầu vồng và một đoạn gợi cảm được sử dụng cho kho lưu trữ giọng nói.
Lưu ý rằng văn bản 'p315' đã bị mất do lỗi đĩa cứng.
Trang chủ : https://doi.org/10.7488/ds/2645
Mã nguồn :
tfds.audio.Vctk
Các phiên bản :
-
1.0.0
(mặc định): VCTK phát hành 0.92.0.
-
Kích thước tải xuống :
10.94 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'id': tf.string,
'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=tf.int64),
'text': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
giọng | ClassLabel | tf.int64 | ||
giới tính | ClassLabel | tf.int64 | ||
Tôi | Tensor | tf.string | ||
loa | ClassLabel | tf.int64 | ||
lời nói | Âm thanh | (Không có,) | tf.int64 | |
chữ | Chữ | tf.string |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'speech')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk / mic1 (cấu hình mặc định)
Mô tả cấu hình : Âm thanh được ghi bằng micrô đa hướng (DPA 4035). Chứa tiếng ồn tần số rất thấp.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Kích thước tập dữ liệu :
39.87 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 44.455 |
vctk / mic2
Mô tả cấu hình : Âm thanh được ghi bằng micrô tụ màng nhỏ với băng thông rất rộng (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Kích thước tập dữ liệu:
38.86 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 43.873 |