- Mô tả :
CSTR VCTK Corpus này bao gồm dữ liệu giọng nói được thốt ra bởi 110 người nói tiếng Anh với nhiều giọng khác nhau. Mỗi diễn giả đọc khoảng 400 câu, được chọn từ một tờ báo, đoạn cầu vồng và đoạn gợi ý được sử dụng để lưu trữ giọng nói.
Lưu ý rằng văn bản 'p315' đã bị mất do lỗi đĩa cứng.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://doi.org/10.7488/ds/2645
Mã nguồn :
tfds.audio.Vctk
Phiên bản :
-
1.0.0
: Bản phát hành VCTK 0.92.0. -
1.0.1
(mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
-
Kích thước tải xuống :
10.94 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
giọng | LớpNhãn | int64 | ||
giới tính | LớpNhãn | int64 | ||
Tôi | tenxơ | sợi dây | ||
loa | LớpNhãn | int64 | ||
lời nói | âm thanh | (Không có,) | int16 | |
chữ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'speech')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (cấu hình mặc định)
Mô tả cấu hình : Âm thanh được ghi bằng micrô đa hướng (DPA 4035). Chứa tiếng ồn tần số rất thấp.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Kích thước tập dữ liệu :
39.87 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 44,455 |
- Ví dụ ( tfds.as_dataframe ):
vctk/mic2
Mô tả cấu hình : Âm thanh được ghi bằng micrô điện dung có màng ngăn nhỏ với băng thông rất rộng (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Kích thước tập dữ liệu :
38.86 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 43,873 |
- Ví dụ ( tfds.as_dataframe ):