- توضیحات :
مجموعه داده جداسازی جهانی رایگان (FUSS) پایگاه داده ای از مخلوط های صوتی دلخواه و مراجع سطح منبع است که برای استفاده در آزمایش های جداسازی دلخواه صدا می باشد.
این دادههای رسمی جداسازی صدا برای چالش DCASE2020 Task 4: تشخیص و جداسازی رویداد صدا در محیطهای خانگی است.
نمای کلی: دادههای صوتی FUSS از پیشانتشار مجموعه دادههای Freesound به نام (FSD50k)، یک مجموعه داده رویداد صوتی متشکل از محتوای Freesound که با برچسبهایی از هستیشناسی AudioSet مشروح شده است، به دست میآید. با استفاده از برچسبهای FSD50K، این فایلهای منبع بهگونهای بررسی شدهاند که احتمالاً تنها حاوی یک نوع صدا هستند. برچسبهایی برای این فایلهای منبع ارائه نشدهاند و بخشی از چالش محسوب نمیشوند. برای هدف چالش جداسازی صدا و تشخیص رویداد DCASE Task4، سیستمها نباید از برچسبهای FSD50K استفاده کنند، حتی اگر ممکن است پس از انتشار FSD50K در دسترس قرار گیرند.
برای ایجاد مخلوطها، کلیپهای 10 ثانیهای از منابع با پاسخهای ضربهای اتاق شبیهسازی شده در هم میآیند و به هم اضافه میشوند. هر مخلوط 10 ثانیه ای شامل 1 تا 4 منبع است. فایل های منبع بیش از 10 ثانیه منابع "پس زمینه" در نظر گرفته می شوند. هر مخلوط حاوی یک منبع پس زمینه است که برای تمام مدت فعال است. ما ارائه می دهیم: دستور العمل نرم افزاری برای ایجاد مجموعه داده، پاسخ های تکانه اتاق، و صدای منبع اصلی.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
کد منبع :
tfds.audio.Fuss
نسخه ها :
-
1.2.0
(پیش فرض): بدون یادداشت انتشار.
-
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1000 |
'train' | 20000 |
'validation' | 1000 |
- ساختار ویژگی :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | تانسور | رشته | ||
مرباجات | تانسور | رشته | ||
مخلوط_صوتی | سمعی | (160000،) | int16 | |
بخش ها | توالی | |||
segments/end_time_seconds | تانسور | float32 | ||
بخش/برچسب | تانسور | رشته | ||
segments/start_time_seconds | تانسور | float32 | ||
منابع | توالی | |||
منابع/صوتی | سمعی | (160000،) | int16 | |
منابع/برچسب | ClassLabel | int64 |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('mixture_audio', 'sources')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
fuss/reverberant (پیکربندی پیش فرض)
توضیحات پیکربندی : صدای پیشفرض طنیندار.
حجم دانلود :
7.35 GiB
حجم مجموعه داده :
43.20 GiB
مثالها ( tfds.as_dataframe ):
سر و صدا / پردازش نشده
توضیحات پیکربندی : صدای پردازش نشده بدون طنین اضافی.
حجم دانلود :
8.28 GiB
حجم مجموعه داده :
45.58 GiB
مثالها ( tfds.as_dataframe ):