vctk

Mô tả :

CSTR VCTK Corpus này bao gồm dữ liệu giọng nói được thốt ra bởi 110 người nói tiếng Anh với nhiều giọng khác nhau. Mỗi diễn giả đọc khoảng 400 câu, được chọn từ một tờ báo, đoạn cầu vồng và đoạn gợi ý được sử dụng để lưu trữ giọng nói.

Lưu ý rằng văn bản 'p315' đã bị mất do lỗi đĩa cứng.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://doi.org/10.7488/ds/2645
Mã nguồn : tfds.audio.Vctk
Phiên bản :
- 1.0.0 : Bản phát hành VCTK 0.92.0.
- 1.0.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
Kích thước tải xuống : 10.94 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
giọng	LớpNhãn		int64
giới tính	LớpNhãn		int64
Tôi	tenxơ		sợi dây
loa	LớpNhãn		int64
lời nói	âm thanh	(Không có,)	int16
chữ	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('text', 'speech')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (cấu hình mặc định)

Mô tả cấu hình : Âm thanh được ghi bằng micrô đa hướng (DPA 4035). Chứa tiếng ồn tần số rất thấp.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Kích thước tập dữ liệu : 39.87 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	44,455

Ví dụ ( tfds.as_dataframe ):

vctk/mic2

Mô tả cấu hình : Âm thanh được ghi bằng micrô điện dung có màng ngăn nhỏ với băng thông rất rộng (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Kích thước tập dữ liệu : 38.86 GiB
Chia tách :

Tách ra	ví dụ
`'train'`	43,873

Ví dụ ( tfds.as_dataframe ):