keributan

  • Deskripsi :

Dataset Free Universal Sound Separation (FUSS) adalah basis data campuran suara arbitrer dan referensi tingkat sumber, untuk digunakan dalam eksperimen pemisahan suara arbitrer.

Ini adalah data pemisahan suara resmi untuk DCASE2020 Challenge Task 4: Deteksi dan Pemisahan Peristiwa Suara di Lingkungan Domestik.

Ikhtisar: Data audio FUSS bersumber dari pra-rilis kumpulan data Freesound yang dikenal sebagai (FSD50k), kumpulan data peristiwa suara yang terdiri dari konten Freesound yang dianotasi dengan label dari AudioSet Ontology. Menggunakan label FSD50K, file sumber ini telah disaring sedemikian rupa sehingga kemungkinan besar hanya berisi satu jenis suara. Label tidak disediakan untuk file sumber ini, dan tidak dianggap sebagai bagian dari tantangan. Untuk tujuan tantangan DCASE Task4 Sound Separation and Event Detection, sistem sebaiknya tidak menggunakan label FSD50K, meskipun mungkin tersedia setelah rilis FSD50K.

Untuk membuat campuran, klip sumber 10 detik digabungkan dengan respons impuls ruangan yang disimulasikan dan ditambahkan bersama. Setiap campuran 10 detik mengandung antara 1 dan 4 sumber. File sumber yang lebih lama dari 10 detik dianggap sebagai sumber "latar belakang". Setiap campuran berisi satu sumber latar belakang, yang aktif sepanjang durasi. Kami menyediakan: resep perangkat lunak untuk membuat kumpulan data, respons impuls ruangan, dan audio sumber asli.

Membelah Contoh
'test' 1.000
'train' 20.000
'validation' 1.000
  • Struktur fitur :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
Indo Tensor rangkaian
selai Tensor rangkaian
campuran_audio Audio (160000,) int16
segmen Urutan
segmen/end_time_seconds Tensor float32
segmen/label Tensor rangkaian
segmen/start_time_seconds Tensor float32
sumber Urutan
sumber/audio Audio (160000,) int16
sumber/label LabelKelas int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

rewel/gema (konfigurasi default)

  • Deskripsi konfigurasi : Audio gema default.

  • Ukuran unduhan : 7.35 GiB

  • Ukuran dataset : 43.20 GiB

  • Contoh ( tfds.as_dataframe ):

rewel/belum diproses

  • Deskripsi konfigurasi : Audio yang belum diproses tanpa gema tambahan.

  • Ukuran unduhan : 8.28 GiB

  • Ukuran dataset : 45.58 GiB

  • Contoh ( tfds.as_dataframe ):