mowa_komendy

  • opis :

Zbiór danych dźwiękowych wypowiadanych słów, który ma pomóc w szkoleniu i ocenie systemów wykrywania słów kluczowych. Jego głównym celem jest zapewnienie sposobu na zbudowanie i przetestowanie małych modeli, które wykrywają, kiedy wypowiadane jest pojedyncze słowo, z zestawu dziesięciu słów docelowych, z jak najmniejszą liczbą fałszywych trafień spowodowanych hałasem w tle lub niepowiązaną mową. Należy zauważyć, że w zestawie pociągów i walidacji etykieta „nieznany” jest znacznie bardziej rozpowszechniona niż etykiety słów docelowych lub szumu tła. Jedną różnicą w stosunku do wersji wydania jest obsługa cichych segmentów. Podczas gdy w zestawie testowym segmenty ciszy są zwykłymi 1-sekundowymi plikami, w treningu są one dostarczane jako długie segmenty w folderze „background_noise”. Tutaj dzielimy te szumy tła na 1-sekundowe klipy, a także zachowujemy jeden z plików dla zestawu sprawdzania poprawności.

Podział Przykłady
'test' 4890
'train' 85511
'validation' 10102
  • Struktura funkcji :
FeaturesDict({
   
'audio': Audio(shape=(None,), dtype=int16),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
audio Audio (Nic,) int16
etykieta Etykieta klasy int64
  • Cytat :
@article{speechcommandsv2,
   author
= { {Warden}, P.},
    title
= "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal
= {ArXiv e-prints},
  archivePrefix
= "arXiv",
  eprint
= {1804.03209},
  primaryClass
= "cs.CL",
  keywords
= {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year
= 2018,
    month
= apr,
    url
= {https://arxiv.org/abs/1804.03209},
}