zamieszanie

  • opis :

Zestaw danych Free Universal Sound Separation (FUSS) to baza danych dowolnych miksów dźwięków i odniesień na poziomie źródła, do wykorzystania w eksperymentach dotyczących dowolnej separacji dźwięku.

To są oficjalne dane dotyczące separacji dźwięku dla zadania 4 wyzwania DCASE2020: Wykrywanie i separacja zdarzeń dźwiękowych w środowiskach domowych.

Omówienie: Dane dźwiękowe FUSS pochodzą z przedpremierowego zestawu danych Freesound znanego jako (FSD50k), zestawu danych zdarzeń dźwiękowych złożonego z treści Freesound z adnotacjami z etykietami z AudioSet Ontology. Korzystając z etykiet FSD50K, te pliki źródłowe zostały sprawdzone w taki sposób, że prawdopodobnie zawierają tylko jeden rodzaj dźwięku. Etykiety nie są dostarczane dla tych plików źródłowych i nie są uważane za część wyzwania. Na potrzeby wyzwania DCASE Task4 Sound Separation and Event Detection systemy nie powinny używać etykiet FSD50K, nawet jeśli mogą one stać się dostępne po wydaniu FSD50K.

Aby stworzyć mikstury, 10-sekundowe klipy źródeł są łączone z symulowanymi reakcjami impulsowymi pomieszczenia i dodawane razem. Każda 10-sekundowa mieszanka zawiera od 1 do 4 źródeł. Pliki źródłowe dłuższe niż 10 sekund są uważane za źródła „w tle”. Każda mieszanka zawiera jedno źródło tła, które jest aktywne przez cały czas trwania. Zapewniamy: recepturę oprogramowania do tworzenia zestawu danych, odpowiedzi impulsowe pomieszczenia oraz oryginalne źródło dźwięku.

Rozdzielać Przykłady
'test' 1000
'train' 20 000
'validation' 1000
  • Struktura funkcji :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ID Napinacz strunowy
zacina się Napinacz strunowy
mieszanka_audio Audio (160000,) int16
segmenty Sekwencja
segmenty/czas_końca_sekund Napinacz pływak32
segmenty/etykieta Napinacz strunowy
segmenty/czas_początkowy_sekundy Napinacz pływak32
źródła Sekwencja
źródła/dźwięk Audio (160000,) int16
źródła/wytwórnia Etykieta klasy int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

zamieszanie/pogłos (domyślna konfiguracja)

  • Opis konfiguracji : Domyślny dźwięk pogłosowy.

  • Rozmiar pliku do pobrania : 7.35 GiB

  • Rozmiar zestawu danych : 43.20 GiB

  • Przykłady ( tfds.as_dataframe ):

zamieszanie / nieprzetworzone

  • Opis konfiguracji: Nieprzetworzony dźwięk bez dodatkowego pogłosu.

  • Rozmiar pliku do pobrania : 8.28 GiB

  • Rozmiar zestawu danych : 45.58 GiB

  • Przykłady ( tfds.as_dataframe ):