nsynth

  • বর্ণনা :

NSynth ডেটাসেট হল একটি অডিও ডেটাসেট যাতে রয়েছে ~300k মিউজিক্যাল নোট, প্রতিটিতে একটি অনন্য পিচ, কাঠ এবং খাম রয়েছে। প্রতিটি নোট মানব মূল্যায়ন এবং হিউরিস্টিক অ্যালগরিদমের সমন্বয়ের উপর ভিত্তি করে তথ্যের তিনটি অতিরিক্ত টুকরা দিয়ে টীকা করা হয়: উত্স, পরিবার এবং গুণাবলী।

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/পূর্ণ (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : সম্পূর্ণ NSynth ডেটাসেটকে ট্রেন, বৈধ এবং পরীক্ষা সেটে বিভক্ত করা হয়েছে, ট্রেন সেট এবং বৈধ/পরীক্ষা সেটের মধ্যে কোনো যন্ত্র ওভারল্যাপ করা নেই।

  • ডাউনলোড 73.07 GiB

  • ডেটাসেটের আকার : 73.09 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৪,০৯৬
'train' 289,205
'valid' 12,678
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শ্রুতি শ্রুতি (64000,) float32
আইডি টেনসর স্ট্রিং
যন্ত্র ফিচারসডিক্ট
যন্ত্র/পরিবার ক্লাসলেবেল int64
যন্ত্র/লেবেল ক্লাসলেবেল int64
যন্ত্র/উৎস ক্লাসলেবেল int64
পিচ ক্লাসলেবেল int64
গুণাবলী ফিচারসডিক্ট
গুণাবলী/উজ্জ্বল টেনসর bool
গুণাবলী/অন্ধকার টেনসর bool
গুণাবলী/বিকৃতি টেনসর bool
গুণাবলী/দ্রুত_ক্ষয় টেনসর bool
গুণাবলী/দীর্ঘ_মুক্তি টেনসর bool
গুণাবলী/মাল্টিফোনিক টেনসর bool
গুণাবলী/nonlinear_env টেনসর bool
গুণাবলী/তাড়িত টেনসর bool
গুণাবলী/প্রতিক্রিয়া টেনসর bool
গুণাবলী/টেম্পো-সিঙ্কড টেনসর bool
বেগ ক্লাসলেবেল int64

nsynth/gansynth_subset

  • কনফিগারেশনের বিবরণ : NSynth ডেটাসেট MIDI পিচ ব্যবধানে শাব্দ যন্ত্রের মধ্যে সীমাবদ্ধ [24, 84]। ট্রেন সেট এবং বৈধ/পরীক্ষা সেটের মধ্যে যন্ত্রগুলিতে ওভারল্যাপ (কিন্তু সঠিক নোট নয়) বিকল্প স্প্লিট ব্যবহার করে। এই বৈকল্পিকটি মূলত ICLR 2019 GANSynth কাগজে ( https://arxiv.org/abs/1902.08710 ) চালু করা হয়েছিল।

  • ডাউনলোড সাইজ : 73.08 GiB

  • ডেটাসেটের আকার : 20.73 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৮,৫১৮
'train' 60,788
'valid' 17,469
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শ্রুতি শ্রুতি (64000,) float32
আইডি টেনসর স্ট্রিং
যন্ত্র ফিচারসডিক্ট
যন্ত্র/পরিবার ক্লাসলেবেল int64
যন্ত্র/লেবেল ক্লাসলেবেল int64
যন্ত্র/উৎস ক্লাসলেবেল int64
পিচ ক্লাসলেবেল int64
গুণাবলী ফিচারসডিক্ট
গুণাবলী/উজ্জ্বল টেনসর bool
গুণাবলী/অন্ধকার টেনসর bool
গুণাবলী/বিকৃতি টেনসর bool
গুণাবলী/দ্রুত_ক্ষয় টেনসর bool
গুণাবলী/দীর্ঘ_মুক্তি টেনসর bool
গুণাবলী/মাল্টিফোনিক টেনসর bool
গুণাবলী/nonlinear_env টেনসর bool
গুণাবলী/তাড়িত টেনসর bool
গুণাবলী/প্রতিক্রিয়া টেনসর bool
গুণাবলী/টেম্পো-সিঙ্কড টেনসর bool
বেগ ক্লাসলেবেল int64

nsynth/gansynth_subset.f0_and_loudness

  • কনফিগারেশনের বিবরণ : NSynth ডেটাসেট MIDI পিচ ব্যবধানে শাব্দ যন্ত্রের মধ্যে সীমাবদ্ধ [24, 84]। ট্রেন সেট এবং বৈধ/পরীক্ষা সেটের মধ্যে যন্ত্রগুলিতে ওভারল্যাপ (কিন্তু সঠিক নোট নয়) বিকল্প স্প্লিট ব্যবহার করে। এই বৈকল্পিকটি মূলত ICLR 2019 GANSynth কাগজে ( https://arxiv.org/abs/1902.08710 ) চালু করা হয়েছিল। এই সংস্করণে অতিরিক্তভাবে CREPE (Kim et al., 2018) ব্যবহার করে F0 এর অনুমান এবং ডেসিবেলে A-ভারিত উপলব্ধিমূলক উচ্চতা রয়েছে। উভয় সংকেত 250Hz এর একটি ফ্রেম হারে প্রদান করা হয়।

  • ডাউনলোড সাইজ : 73.08 GiB

  • ডেটাসেটের আকার : 22.03 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৮,৫১৮
'train' 60,788
'valid' 17,469
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=float32),
        'hz': Tensor(shape=(1000,), dtype=float32),
        'midi': Tensor(shape=(1000,), dtype=float32),
    }),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শ্রুতি শ্রুতি (64000,) float32
f0 ফিচারসডিক্ট
f0/আত্মবিশ্বাস টেনসর (1000,) float32
f0/hz টেনসর (1000,) float32
f0/মিডি টেনসর (1000,) float32
আইডি টেনসর স্ট্রিং
যন্ত্র ফিচারসডিক্ট
যন্ত্র/পরিবার ক্লাসলেবেল int64
যন্ত্র/লেবেল ক্লাসলেবেল int64
যন্ত্র/উৎস ক্লাসলেবেল int64
জোর ফিচারসডিক্ট
উচ্চতা/ডিবি টেনসর (1000,) float32
পিচ ক্লাসলেবেল int64
গুণাবলী ফিচারসডিক্ট
গুণাবলী/উজ্জ্বল টেনসর bool
গুণাবলী/অন্ধকার টেনসর bool
গুণাবলী/বিকৃতি টেনসর bool
গুণাবলী/দ্রুত_ক্ষয় টেনসর bool
গুণাবলী/দীর্ঘ_মুক্তি টেনসর bool
গুণাবলী/মাল্টিফোনিক টেনসর bool
গুণাবলী/nonlinear_env টেনসর bool
গুণাবলী/তাড়িত টেনসর bool
গুণাবলী/প্রতিক্রিয়া টেনসর bool
গুণাবলী/টেম্পো-সিঙ্কড টেনসর bool
বেগ ক্লাসলেবেল int64