vctk

opis :

Ten CSTR VCTK Corpus zawiera dane mowy wypowiedziane przez 110 anglojęzycznych z różnymi akcentami. Każdy mówca odczytuje około 400 zdań, które zostały wybrane z gazety, tęczowego fragmentu i akapitu elicytacji, które zostały użyte do archiwum akcentów mowy.

Zauważ, że tekst „p315” został utracony z powodu błędu dysku twardego.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://doi.org/10.7488/ds/2645
Kod źródłowy : tfds.audio.Vctk
Wersje :
- 1.0.0 : Wersja VCTK 0.92.0.
- 1.0.1 (domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16.
Rozmiar pliku do pobrania : 10.94 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
akcent	Etykieta klasy		int64
płeć	Etykieta klasy		int64
ID	Napinacz		strunowy
głośnik	Etykieta klasy		int64
przemówienie	Audio	(Nic,)	int16
tekst	Tekst		strunowy

Nadzorowane klucze (Zobacz as_supervised doc ): ('text', 'speech')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (domyślna konfiguracja)

Opis konfiguracji: Dźwięk nagrany przy użyciu mikrofonu wielokierunkowego (DPA 4035). Zawiera dźwięki o bardzo niskiej częstotliwości.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Rozmiar zestawu danych : 39.87 GiB
Podziały :

Rozdzielać	Przykłady
`'train'`	44455

Przykłady ( tfds.as_dataframe ):

vctk/mic2

Opis konfiguracji : Dźwięk nagrany przy użyciu małomembranowego mikrofonu pojemnościowego o bardzo szerokim paśmie przenoszenia (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Rozmiar zestawu danych : 38.86 GiB
Podziały :

Rozdzielać	Przykłady
`'train'`	43873

Przykłady ( tfds.as_dataframe ):

vctk Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

vctk/mic1 (domyślna konfiguracja)

vctk/mic2

vctk