- Deskripsi :
Dataset Free Universal Sound Separation (FUSS) adalah basis data campuran suara arbitrer dan referensi tingkat sumber, untuk digunakan dalam eksperimen pemisahan suara arbitrer.
Ini adalah data pemisahan suara resmi untuk DCASE2020 Challenge Task 4: Deteksi dan Pemisahan Peristiwa Suara di Lingkungan Domestik.
Ikhtisar: Data audio FUSS bersumber dari pra-rilis kumpulan data Freesound yang dikenal sebagai (FSD50k), kumpulan data peristiwa suara yang terdiri dari konten Freesound yang dianotasi dengan label dari AudioSet Ontology. Menggunakan label FSD50K, file sumber ini telah disaring sedemikian rupa sehingga kemungkinan besar hanya berisi satu jenis suara. Label tidak disediakan untuk file sumber ini, dan tidak dianggap sebagai bagian dari tantangan. Untuk tujuan tantangan DCASE Task4 Sound Separation and Event Detection, sistem sebaiknya tidak menggunakan label FSD50K, meskipun mungkin tersedia setelah rilis FSD50K.
Untuk membuat campuran, klip sumber 10 detik digabungkan dengan respons impuls ruangan yang disimulasikan dan ditambahkan bersama. Setiap campuran 10 detik mengandung antara 1 dan 4 sumber. File sumber yang lebih lama dari 10 detik dianggap sebagai sumber "latar belakang". Setiap campuran berisi satu sumber latar belakang, yang aktif sepanjang durasi. Kami menyediakan: resep perangkat lunak untuk membuat kumpulan data, respons impuls ruangan, dan audio sumber asli.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.audio.Fuss
Versi :
-
1.2.0
(default): Tidak ada catatan rilis.
-
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.000 |
'train' | 20.000 |
'validation' | 1.000 |
- Struktur fitur :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
Indo | Tensor | rangkaian | ||
selai | Tensor | rangkaian | ||
campuran_audio | Audio | (160000,) | int16 | |
segmen | Urutan | |||
segmen/end_time_seconds | Tensor | float32 | ||
segmen/label | Tensor | rangkaian | ||
segmen/start_time_seconds | Tensor | float32 | ||
sumber | Urutan | |||
sumber/audio | Audio | (160000,) | int16 | |
sumber/label | LabelKelas | int64 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('mixture_audio', 'sources')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
rewel/gema (konfigurasi default)
Deskripsi konfigurasi : Audio gema default.
Ukuran unduhan :
7.35 GiB
Ukuran dataset :
43.20 GiB
Contoh ( tfds.as_dataframe ):
rewel/belum diproses
Deskripsi konfigurasi : Audio yang belum diproses tanpa gema tambahan.
Ukuran unduhan :
8.28 GiB
Ukuran dataset :
45.58 GiB
Contoh ( tfds.as_dataframe ):