- opis :
Ten CSTR VCTK Corpus zawiera dane mowy wypowiedziane przez 110 anglojęzycznych z różnymi akcentami. Każdy mówca odczytuje około 400 zdań, które zostały wybrane z gazety, tęczowego fragmentu i akapitu elicytacji, które zostały użyte do archiwum akcentów mowy.
Zauważ, że tekst „p315” został utracony z powodu błędu dysku twardego.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://doi.org/10.7488/ds/2645
Kod źródłowy :
tfds.audio.Vctk
Wersje :
-
1.0.0
: Wersja VCTK 0.92.0. -
1.0.1
(domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16.
-
Rozmiar pliku do pobrania :
10.94 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
akcent | Etykieta klasy | int64 | ||
płeć | Etykieta klasy | int64 | ||
ID | Napinacz | strunowy | ||
głośnik | Etykieta klasy | int64 | ||
przemówienie | Audio | (Nic,) | int16 | |
tekst | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('text', 'speech')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (domyślna konfiguracja)
Opis konfiguracji: Dźwięk nagrany przy użyciu mikrofonu wielokierunkowego (DPA 4035). Zawiera dźwięki o bardzo niskiej częstotliwości.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Rozmiar zestawu danych :
39.87 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 44455 |
- Przykłady ( tfds.as_dataframe ):
vctk/mic2
Opis konfiguracji : Dźwięk nagrany przy użyciu małomembranowego mikrofonu pojemnościowego o bardzo szerokim paśmie przenoszenia (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Rozmiar zestawu danych :
38.86 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 43873 |
- Przykłady ( tfds.as_dataframe ):