nsynth

  • คำอธิบาย :

ชุดข้อมูล NSynth เป็นชุดข้อมูลเสียงที่มีโน้ตดนตรีประมาณ 300,000 ตัว โดยแต่ละชุดมีระดับเสียง เสียงต่ำ และซองจดหมายที่ไม่ซ้ำกัน บันทึกย่อแต่ละรายการจะมีคำอธิบายประกอบด้วยข้อมูลเพิ่มเติมสามชิ้นตามการผสมผสานระหว่างการประเมินโดยมนุษย์และอัลกอริทึมแบบฮิวริสติก: แหล่งที่มา ครอบครัว และคุณภาพ

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/เต็ม (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล NSynth แบบเต็มแบ่งออกเป็นชุดรถไฟ ชุดที่ถูกต้อง และชุดทดสอบ โดยไม่มีเครื่องมือใดทับซ้อนกันระหว่างชุดรถไฟและชุดที่ถูกต้อง/ทดสอบ

  • ขนาดการดาวน์โหลด : 73.07 GiB

  • ขนาดชุดข้อมูล : 73.09 GiB

  • แยก :

แยก ตัวอย่าง
'test' 4,096
'train' 289,205
'valid' 12,678
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เสียง เครื่องเสียง (64000,) ลอย32
รหัส เทนเซอร์ สตริง
อุปกรณ์ คุณสมบัติDict
เครื่องดนตรี/ตระกูล ป้ายกำกับคลาส int64
เครื่องมือ / ฉลาก ป้ายกำกับคลาส int64
เครื่องดนตรี/แหล่งที่มา ป้ายกำกับคลาส int64
ขว้าง ป้ายกำกับคลาส int64
คุณภาพ คุณสมบัติDict
คุณภาพ/สว่าง เทนเซอร์ บูล
คุณภาพ/มืด เทนเซอร์ บูล
คุณภาพ/การบิดเบือน เทนเซอร์ บูล
คุณภาพ/fast_decay เทนเซอร์ บูล
คุณภาพ/long_release เทนเซอร์ บูล
คุณภาพ/มัลติโฟนิก เทนเซอร์ บูล
คุณภาพ/nonlinear_env เทนเซอร์ บูล
คุณภาพ / กระทบ เทนเซอร์ บูล
คุณภาพ/พัดโบก เทนเซอร์ บูล
คุณภาพ/จังหวะ-ซิงค์ เทนเซอร์ บูล
ความเร็ว ป้ายกำกับคลาส int64

nsynth/gansynth_subset

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล NSynth จำกัด เฉพาะเครื่องดนตรีอะคูสติกในช่วงระยะเสียง MIDI [24, 84] ใช้การแยกแบบอื่นที่มีการทับซ้อนกันในเครื่องดนตรี (แต่ไม่ใช่โน้ตที่แน่นอน) ระหว่างชุดรถไฟและชุดที่ถูกต้อง/ทดสอบ ตัวแปรนี้ได้รับการแนะนำครั้งแรกในกระดาษ ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 )

  • ขนาดการดาวน์โหลด : 73.08 GiB

  • ขนาดชุดข้อมูล : 20.73 GiB

  • แยก :

แยก ตัวอย่าง
'test' 8,518
'train' 60,788
'valid' 17,469
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เสียง เครื่องเสียง (64000,) ลอย32
รหัส เทนเซอร์ สตริง
อุปกรณ์ คุณสมบัติDict
เครื่องดนตรี/ตระกูล ป้ายกำกับคลาส int64
เครื่องมือ / ฉลาก ป้ายกำกับคลาส int64
เครื่องดนตรี/แหล่งที่มา ป้ายกำกับคลาส int64
ขว้าง ป้ายกำกับคลาส int64
คุณภาพ คุณสมบัติDict
คุณภาพ/สว่าง เทนเซอร์ บูล
คุณภาพ/มืด เทนเซอร์ บูล
คุณภาพ/การบิดเบือน เทนเซอร์ บูล
คุณภาพ/fast_decay เทนเซอร์ บูล
คุณภาพ/long_release เทนเซอร์ บูล
คุณภาพ/มัลติโฟนิก เทนเซอร์ บูล
คุณภาพ/nonlinear_env เทนเซอร์ บูล
คุณภาพ / กระทบ เทนเซอร์ บูล
คุณภาพ/พัดโบก เทนเซอร์ บูล
คุณภาพ/จังหวะ-ซิงค์ เทนเซอร์ บูล
ความเร็ว ป้ายกำกับคลาส int64

nsynth/gansynth_subset.f0_and_loudness

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล NSynth จำกัด เฉพาะเครื่องดนตรีอะคูสติกในช่วงระยะเสียง MIDI [24, 84] ใช้การแยกแบบอื่นที่มีการทับซ้อนกันในเครื่องดนตรี (แต่ไม่ใช่โน้ตที่แน่นอน) ระหว่างชุดรถไฟและชุดที่ถูกต้อง/ทดสอบ ตัวแปรนี้ได้รับการแนะนำครั้งแรกในกระดาษ ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ) รุ่นนี้ยังมีค่าประมาณสำหรับ F0 โดยใช้ CREPE (Kim et al., 2018) และความดังของการรับรู้ที่ถ่วงน้ำหนัก A ในหน่วยเดซิเบล สัญญาณทั้งสองมีให้ที่อัตราเฟรม 250Hz

  • ขนาดการดาวน์โหลด : 73.08 GiB

  • ขนาดชุดข้อมูล : 22.03 GiB

  • แยก :

แยก ตัวอย่าง
'test' 8,518
'train' 60,788
'valid' 17,469
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=float32),
        'hz': Tensor(shape=(1000,), dtype=float32),
        'midi': Tensor(shape=(1000,), dtype=float32),
    }),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เสียง เครื่องเสียง (64000,) ลอย32
ฉ0 คุณสมบัติDict
f0/ค่าความเชื่อมั่น เทนเซอร์ (1,000,) ลอย32
f0/เฮิร์ตซ์ เทนเซอร์ (1,000,) ลอย32
f0/มิดิ เทนเซอร์ (1,000,) ลอย32
รหัส เทนเซอร์ สตริง
อุปกรณ์ คุณสมบัติDict
เครื่องดนตรี/ตระกูล ป้ายกำกับคลาส int64
เครื่องมือ / ฉลาก ป้ายกำกับคลาส int64
เครื่องดนตรี/แหล่งที่มา ป้ายกำกับคลาส int64
ความดัง คุณสมบัติDict
ความดัง/เดซิเบล เทนเซอร์ (1,000,) ลอย32
ขว้าง ป้ายกำกับคลาส int64
คุณภาพ คุณสมบัติDict
คุณภาพ/สว่าง เทนเซอร์ บูล
คุณภาพ/มืด เทนเซอร์ บูล
คุณภาพ/การบิดเบือน เทนเซอร์ บูล
คุณภาพ/fast_decay เทนเซอร์ บูล
คุณภาพ/long_release เทนเซอร์ บูล
คุณภาพ/มัลติโฟนิก เทนเซอร์ บูล
คุณภาพ/nonlinear_env เทนเซอร์ บูล
คุณภาพ / กระทบ เทนเซอร์ บูล
คุณภาพ/พัดโบก เทนเซอร์ บูล
คุณภาพ/จังหวะ-ซิงค์ เทนเซอร์ บูล
ความเร็ว ป้ายกำกับคลาส int64