एनएससिंथो

  • विवरण :

NSynth डेटासेट एक ऑडियो डेटासेट है जिसमें ~300k संगीत नोट हैं, प्रत्येक एक अद्वितीय पिच, लय और लिफाफा के साथ है। प्रत्येक नोट को मानव मूल्यांकन और हेयुरिस्टिक एल्गोरिदम के संयोजन के आधार पर जानकारी के तीन अतिरिक्त टुकड़ों के साथ एनोटेट किया गया है: स्रोत, परिवार और गुण।

@InProceedings{pmlr-v70-engel17a,
  title
=    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author
=   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle
=    {Proceedings of the 34th International Conference on Machine Learning},
  pages
=    {1068--1077},
  year
=     {2017},
  editor
=   {Doina Precup and Yee Whye Teh},
  volume
=   {70},
  series
=   {Proceedings of Machine Learning Research},
  address
=      {International Convention Centre, Sydney, Australia},
  month
=    {06--11 Aug},
  publisher
=    {PMLR},
  pdf
=      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url
=      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/पूर्ण (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • Config विवरण : पूर्ण NSynth डेटासेट को ट्रेन, वैध और परीक्षण सेट में विभाजित किया गया है, जिसमें ट्रेन सेट और वैध/परीक्षण सेट के बीच कोई उपकरण ओवरलैप नहीं होता है।

  • डाउनलोड का आकार : 73.07 GiB

  • डेटासेट का आकार : 73.09 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,096
'train' 289,205
'valid' 12,678
  • फ़ीचर संरचना :
FeaturesDict({
   
'audio': Audio(shape=(64000,), dtype=float32),
   
'id': string,
   
'instrument': FeaturesDict({
       
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
}),
   
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
   
'qualities': FeaturesDict({
       
'bright': bool,
       
'dark': bool,
       
'distortion': bool,
       
'fast_decay': bool,
       
'long_release': bool,
       
'multiphonic': bool,
       
'nonlinear_env': bool,
       
'percussive': bool,
       
'reverb': bool,
       
'tempo-synced': bool,
   
}),
   
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
ऑडियो ऑडियो (64000,) फ्लोट32
पहचान टेन्सर डोरी
यंत्र विशेषताएं डिक्ट
साधन / परिवार क्लासलेबल int64
उपकरण / लेबल क्लासलेबल int64
साधन / स्रोत क्लासलेबल int64
आवाज़ का उतार-चढ़ाव क्लासलेबल int64
गुण विशेषताएं डिक्ट
गुण / उज्ज्वल टेन्सर बूल
गुण / अंधेरा टेन्सर बूल
गुण / विकृति टेन्सर बूल
गुण/तेज़_क्षय टेन्सर बूल
गुण/long_release टेन्सर बूल
गुण/मल्टीफोनिक टेन्सर बूल
गुण/nonlinear_env टेन्सर बूल
गुण/टक्कर टेन्सर बूल
गुण / गूँज टेन्सर बूल
गुण/टेम्पो-सिंक टेन्सर बूल
वेग क्लासलेबल int64

nsynth/gansynth_subset

  • Config विवरण : MIDI पिच अंतराल [24, 84] में ध्वनिक उपकरणों तक सीमित NSynth डेटासेट। ट्रेन सेट और वैध/परीक्षण सेट के बीच उपकरणों में ओवरलैप (लेकिन सटीक नोट्स नहीं) वाले वैकल्पिक विभाजन का उपयोग करता है। इस वेरिएंट को मूल रूप से ICLR 2019 GANSynth पेपर ( https://arxiv.org/abs/1902.08710 ) में पेश किया गया था।

  • डाउनलोड का आकार : 73.08 GiB

  • डेटासेट का आकार : 20.73 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,518
'train' 60,788
'valid' 17,469
  • फ़ीचर संरचना :
FeaturesDict({
   
'audio': Audio(shape=(64000,), dtype=float32),
   
'id': string,
   
'instrument': FeaturesDict({
       
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
}),
   
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
   
'qualities': FeaturesDict({
       
'bright': bool,
       
'dark': bool,
       
'distortion': bool,
       
'fast_decay': bool,
       
'long_release': bool,
       
'multiphonic': bool,
       
'nonlinear_env': bool,
       
'percussive': bool,
       
'reverb': bool,
       
'tempo-synced': bool,
   
}),
   
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
ऑडियो ऑडियो (64000,) फ्लोट32
पहचान टेन्सर डोरी
यंत्र विशेषताएं डिक्ट
साधन / परिवार क्लासलेबल int64
उपकरण / लेबल क्लासलेबल int64
साधन / स्रोत क्लासलेबल int64
आवाज़ का उतार-चढ़ाव क्लासलेबल int64
गुण विशेषताएं डिक्ट
गुण / उज्ज्वल टेन्सर बूल
गुण / अंधेरा टेन्सर बूल
गुण / विकृति टेन्सर बूल
गुण/तेज़_क्षय टेन्सर बूल
गुण/long_release टेन्सर बूल
गुण/मल्टीफोनिक टेन्सर बूल
गुण/nonlinear_env टेन्सर बूल
गुण/टक्कर टेन्सर बूल
गुण / गूँज टेन्सर बूल
गुण/टेम्पो-सिंक टेन्सर बूल
वेग क्लासलेबल int64

nsynth/gansynth_subset.f0_and_loudness

  • Config विवरण : MIDI पिच अंतराल [24, 84] में ध्वनिक उपकरणों तक सीमित NSynth डेटासेट। ट्रेन सेट और वैध/परीक्षण सेट के बीच उपकरणों में ओवरलैप (लेकिन सटीक नोट्स नहीं) वाले वैकल्पिक विभाजन का उपयोग करता है। इस वेरिएंट को मूल रूप से ICLR 2019 GANSynth पेपर ( https://arxiv.org/abs/1902.08710 ) में पेश किया गया था। इस संस्करण में अतिरिक्त रूप से CREPE (किम एट अल।, 2018) और डेसिबल में ए-भारित अवधारणात्मक ज़ोर का उपयोग करके F0 के अनुमान शामिल हैं। दोनों सिग्नल 250Hz की फ्रेम दर पर प्रदान किए जाते हैं।

  • डाउनलोड का आकार : 73.08 GiB

  • डेटासेट का आकार : 22.03 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,518
'train' 60,788
'valid' 17,469
  • फ़ीचर संरचना :
FeaturesDict({
   
'audio': Audio(shape=(64000,), dtype=float32),
   
'f0': FeaturesDict({
       
'confidence': Tensor(shape=(1000,), dtype=float32),
       
'hz': Tensor(shape=(1000,), dtype=float32),
       
'midi': Tensor(shape=(1000,), dtype=float32),
   
}),
   
'id': string,
   
'instrument': FeaturesDict({
       
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
}),
   
'loudness': FeaturesDict({
       
'db': Tensor(shape=(1000,), dtype=float32),
   
}),
   
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
   
'qualities': FeaturesDict({
       
'bright': bool,
       
'dark': bool,
       
'distortion': bool,
       
'fast_decay': bool,
       
'long_release': bool,
       
'multiphonic': bool,
       
'nonlinear_env': bool,
       
'percussive': bool,
       
'reverb': bool,
       
'tempo-synced': bool,
   
}),
   
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
ऑडियो ऑडियो (64000,) फ्लोट32
f0 विशेषताएं डिक्ट
f0 / आत्मविश्वास टेन्सर (1000,) फ्लोट32
f0/हर्ट्ज टेन्सर (1000,) फ्लोट32
f0/मिडी टेन्सर (1000,) फ्लोट32
पहचान टेन्सर डोरी
यंत्र विशेषताएं डिक्ट
साधन / परिवार क्लासलेबल int64
उपकरण / लेबल क्लासलेबल int64
साधन / स्रोत क्लासलेबल int64
प्रबलता विशेषताएं डिक्ट
जोर/डीबी टेन्सर (1000,) फ्लोट32
आवाज़ का उतार-चढ़ाव क्लासलेबल int64
गुण विशेषताएं डिक्ट
गुण / उज्ज्वल टेन्सर बूल
गुण / अंधेरा टेन्सर बूल
गुण / विकृति टेन्सर बूल
गुण/तेज़_क्षय टेन्सर बूल
गुण/long_release टेन्सर बूल
गुण/मल्टीफोनिक टेन्सर बूल
गुण/nonlinear_env टेन्सर बूल
गुण/टक्कर टेन्सर बूल
गुण / गूँज टेन्सर बूल
गुण/टेम्पो-सिंक टेन्सर बूल
वेग क्लासलेबल int64