গোলমাল

  • বর্ণনা :

ফ্রি ইউনিভার্সাল সাউন্ড সেপারেশন (FUSS) ডেটাসেট হল নির্বিচারে শব্দের মিশ্রণ এবং উৎস-স্তরের রেফারেন্সের একটি ডাটাবেস, যা নির্বিচারে শব্দ পৃথকীকরণের পরীক্ষায় ব্যবহারের জন্য।

এটি হল DCASE2020 চ্যালেঞ্জ টাস্ক 4: সাউন্ড ইভেন্ট ডিটেকশন অ্যান্ড সেপারেশন ইন ডোমেস্টিক এনভায়রনমেন্টের অফিসিয়াল সাউন্ড সেপারেশন ডেটা।

সংক্ষিপ্ত বিবরণ: FUSS অডিও ডেটা (FSD50k) নামে পরিচিত ফ্রিসাউন্ড ডেটাসেটের একটি প্রাক-রিলিজ থেকে নেওয়া হয়, একটি সাউন্ড ইভেন্ট ডেটাসেট যা অডিওসেট অন্টোলজির লেবেল সহ টীকাযুক্ত ফ্রিসাউন্ড সামগ্রীর সমন্বয়ে গঠিত। FSD50K লেবেলগুলি ব্যবহার করে, এই উত্স ফাইলগুলিকে এমনভাবে স্ক্রীন করা হয়েছে যে তারা সম্ভবত শুধুমাত্র একটি একক ধরনের শব্দ ধারণ করে। এই উত্স ফাইলগুলির জন্য লেবেলগুলি সরবরাহ করা হয় না এবং চ্যালেঞ্জের অংশ হিসাবে বিবেচিত হয় না৷ DCASE টাস্ক4 সাউন্ড সেপারেশন এবং ইভেন্ট ডিটেকশন চ্যালেঞ্জের উদ্দেশ্যে, সিস্টেমগুলিকে FSD50K লেবেল ব্যবহার করা উচিত নয়, যদিও তারা FSD50K রিলিজের পরে উপলব্ধ হতে পারে।

মিশ্রণ তৈরি করতে, উত্সগুলির 10 সেকেন্ডের ক্লিপগুলি সিমুলেটেড রুম ইম্পাল প্রতিক্রিয়াগুলির সাথে জড়িত এবং একসাথে যুক্ত করা হয়। প্রতিটি 10 ​​সেকেন্ডের মিশ্রণে 1 থেকে 4টি উৎস থাকে। 10 সেকেন্ডের বেশি সময়ের সোর্স ফাইলগুলিকে "পটভূমি" উত্স হিসাবে বিবেচনা করা হয়৷ প্রতিটি মিশ্রণে একটি পটভূমির উৎস থাকে, যা পুরো সময়কালের জন্য সক্রিয় থাকে। আমরা প্রদান করি: ডেটাসেট তৈরি করার জন্য একটি সফ্টওয়্যার রেসিপি, রুম ইমপালস প্রতিক্রিয়া এবং মূল উৎস অডিও।

বিভক্ত উদাহরণ
'test' 1,000
'train' 20,000
'validation' 1,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আইডি টেনসর স্ট্রিং
জ্যাম টেনসর স্ট্রিং
মিশ্রণ_অডিও শ্রুতি (160000,) int16
সেগমেন্ট ক্রম
সেগমেন্ট/শেষ_সময়_সেকেন্ড টেনসর float32
বিভাগ/লেবেল টেনসর স্ট্রিং
সেগমেন্ট/স্টার্ট_টাইম_সেকেন্ড টেনসর float32
সূত্র ক্রম
সূত্র/অডিও শ্রুতি (160000,) int16
উত্স/লেবেল ক্লাসলেবেল int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

ফাস/রিভারবার্যান্ট (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : ডিফল্ট রিভারবেরেটেড অডিও।

  • ডাউনলোড সাইজ : 7.35 GiB

  • ডেটাসেটের আকার : 43.20 GiB

  • উদাহরণ ( tfds.as_dataframe ):

ঝগড়া/অপ্রক্রিয়াহীন

  • কনফিগারেশনের বিবরণ : অতিরিক্ত প্রতিধ্বনি ছাড়াই অপ্রসেসড অডিও।

  • ডাউনলোড আকার : 8.28 GiB

  • ডেটাসেটের আকার : 45.58 GiB

  • উদাহরণ ( tfds.as_dataframe ):