سر و صدا

  • توضیحات :

مجموعه داده جداسازی جهانی رایگان (FUSS) پایگاه داده ای از مخلوط های صوتی دلخواه و مراجع سطح منبع است که برای استفاده در آزمایش های جداسازی دلخواه صدا می باشد.

این داده‌های رسمی جداسازی صدا برای چالش DCASE2020 Task 4: تشخیص و جداسازی رویداد صدا در محیط‌های خانگی است.

نمای کلی: داده‌های صوتی FUSS از پیش‌انتشار مجموعه داده‌های Freesound به نام (FSD50k)، یک مجموعه داده رویداد صوتی متشکل از محتوای Freesound که با برچسب‌هایی از هستی‌شناسی AudioSet مشروح شده است، به دست می‌آید. با استفاده از برچسب‌های FSD50K، این فایل‌های منبع به‌گونه‌ای بررسی شده‌اند که احتمالاً تنها حاوی یک نوع صدا هستند. برچسب‌هایی برای این فایل‌های منبع ارائه نشده‌اند و بخشی از چالش محسوب نمی‌شوند. برای هدف چالش جداسازی صدا و تشخیص رویداد DCASE Task4، سیستم‌ها نباید از برچسب‌های FSD50K استفاده کنند، حتی اگر ممکن است پس از انتشار FSD50K در دسترس قرار گیرند.

برای ایجاد مخلوط‌ها، کلیپ‌های 10 ثانیه‌ای از منابع با پاسخ‌های ضربه‌ای اتاق شبیه‌سازی شده در هم می‌آیند و به هم اضافه می‌شوند. هر مخلوط 10 ثانیه ای شامل 1 تا 4 منبع است. فایل های منبع بیش از 10 ثانیه منابع "پس زمینه" در نظر گرفته می شوند. هر مخلوط حاوی یک منبع پس زمینه است که برای تمام مدت فعال است. ما ارائه می دهیم: دستور العمل نرم افزاری برای ایجاد مجموعه داده، پاسخ های تکانه اتاق، و صدای منبع اصلی.

شکاف مثال ها
'test' 1000
'train' 20000
'validation' 1000
  • ساختار ویژگی :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه تانسور رشته
مرباجات تانسور رشته
مخلوط_صوتی سمعی (160000،) int16
بخش ها توالی
segments/end_time_seconds تانسور float32
بخش/برچسب تانسور رشته
segments/start_time_seconds تانسور float32
منابع توالی
منابع/صوتی سمعی (160000،) int16
منابع/برچسب ClassLabel int64
  • کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('mixture_audio', 'sources')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

fuss/reverberant (پیکربندی پیش فرض)

  • توضیحات پیکربندی : صدای پیش‌فرض طنین‌دار.

  • حجم دانلود : 7.35 GiB

  • حجم مجموعه داده : 43.20 GiB

  • مثال‌ها ( tfds.as_dataframe ):

سر و صدا / پردازش نشده

  • توضیحات پیکربندی : صدای پردازش نشده بدون طنین اضافی.

  • حجم دانلود : 8.28 GiB

  • حجم مجموعه داده : 45.58 GiB

  • مثال‌ها ( tfds.as_dataframe ):