- คำอธิบาย :
ชุดข้อมูล NSynth เป็นชุดข้อมูลเสียงที่มีโน้ตดนตรีประมาณ 300,000 ตัว โดยแต่ละชุดมีระดับเสียง เสียงต่ำ และซองจดหมายที่ไม่ซ้ำกัน บันทึกย่อแต่ละรายการจะมีคำอธิบายประกอบด้วยข้อมูลเพิ่มเติมสามชิ้นตามการผสมผสานระหว่างการประเมินโดยมนุษย์และอัลกอริทึมแบบฮิวริสติก: แหล่งที่มา ครอบครัว และคุณภาพ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://g.co/magenta/nsynth-dataset
รหัสที่มา :
tfds.datasets.nsynth.Builder
รุ่น :
-
2.3.0
: คุณลักษณะloudness_db
ใหม่เป็นเดซิเบล (ไม่ปกติ) -
2.3.1
: F0 คำนวณด้วยการแก้ไขมาตรฐานใน CREPE -
2.3.2
: ใช้คุณสมบัติเสียง -
2.3.3
(ค่าเริ่มต้น): F0 คำนวณด้วยการแก้ไขในการทำให้เป็นมาตรฐานของคลื่น CREPE ( https://github.com/marl/crepe/issues/49 )
-
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@InProceedings{pmlr-v70-engel17a,
title = {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
author = {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
booktitle = {Proceedings of the 34th International Conference on Machine Learning},
pages = {1068--1077},
year = {2017},
editor = {Doina Precup and Yee Whye Teh},
volume = {70},
series = {Proceedings of Machine Learning Research},
address = {International Convention Centre, Sydney, Australia},
month = {06--11 Aug},
publisher = {PMLR},
pdf = {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
url = {http://proceedings.mlr.press/v70/engel17a.html},
}
nsynth/เต็ม (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ชุดข้อมูล NSynth แบบเต็มแบ่งออกเป็นชุดรถไฟ ชุดที่ถูกต้อง และชุดทดสอบ โดยไม่มีเครื่องมือใดทับซ้อนกันระหว่างชุดรถไฟและชุดที่ถูกต้อง/ทดสอบ
ขนาดการดาวน์โหลด :
73.07 GiB
ขนาดชุดข้อมูล :
73.09 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,096 |
'train' | 289,205 |
'valid' | 12,678 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เสียง | เครื่องเสียง | (64000,) | ลอย32 | |
รหัส | เทนเซอร์ | สตริง | ||
อุปกรณ์ | คุณสมบัติDict | |||
เครื่องดนตรี/ตระกูล | ป้ายกำกับคลาส | int64 | ||
เครื่องมือ / ฉลาก | ป้ายกำกับคลาส | int64 | ||
เครื่องดนตรี/แหล่งที่มา | ป้ายกำกับคลาส | int64 | ||
ขว้าง | ป้ายกำกับคลาส | int64 | ||
คุณภาพ | คุณสมบัติDict | |||
คุณภาพ/สว่าง | เทนเซอร์ | บูล | ||
คุณภาพ/มืด | เทนเซอร์ | บูล | ||
คุณภาพ/การบิดเบือน | เทนเซอร์ | บูล | ||
คุณภาพ/fast_decay | เทนเซอร์ | บูล | ||
คุณภาพ/long_release | เทนเซอร์ | บูล | ||
คุณภาพ/มัลติโฟนิก | เทนเซอร์ | บูล | ||
คุณภาพ/nonlinear_env | เทนเซอร์ | บูล | ||
คุณภาพ / กระทบ | เทนเซอร์ | บูล | ||
คุณภาพ/พัดโบก | เทนเซอร์ | บูล | ||
คุณภาพ/จังหวะ-ซิงค์ | เทนเซอร์ | บูล | ||
ความเร็ว | ป้ายกำกับคลาส | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
nsynth/gansynth_subset
คำอธิบาย การกำหนดค่า : ชุดข้อมูล NSynth จำกัด เฉพาะเครื่องดนตรีอะคูสติกในช่วงระยะเสียง MIDI [24, 84] ใช้การแยกแบบอื่นที่มีการทับซ้อนกันในเครื่องดนตรี (แต่ไม่ใช่โน้ตที่แน่นอน) ระหว่างชุดรถไฟและชุดที่ถูกต้อง/ทดสอบ ตัวแปรนี้ได้รับการแนะนำครั้งแรกในกระดาษ ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 )
ขนาดการดาวน์โหลด :
73.08 GiB
ขนาดชุดข้อมูล :
20.73 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 8,518 |
'train' | 60,788 |
'valid' | 17,469 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เสียง | เครื่องเสียง | (64000,) | ลอย32 | |
รหัส | เทนเซอร์ | สตริง | ||
อุปกรณ์ | คุณสมบัติDict | |||
เครื่องดนตรี/ตระกูล | ป้ายกำกับคลาส | int64 | ||
เครื่องมือ / ฉลาก | ป้ายกำกับคลาส | int64 | ||
เครื่องดนตรี/แหล่งที่มา | ป้ายกำกับคลาส | int64 | ||
ขว้าง | ป้ายกำกับคลาส | int64 | ||
คุณภาพ | คุณสมบัติDict | |||
คุณภาพ/สว่าง | เทนเซอร์ | บูล | ||
คุณภาพ/มืด | เทนเซอร์ | บูล | ||
คุณภาพ/การบิดเบือน | เทนเซอร์ | บูล | ||
คุณภาพ/fast_decay | เทนเซอร์ | บูล | ||
คุณภาพ/long_release | เทนเซอร์ | บูล | ||
คุณภาพ/มัลติโฟนิก | เทนเซอร์ | บูล | ||
คุณภาพ/nonlinear_env | เทนเซอร์ | บูล | ||
คุณภาพ / กระทบ | เทนเซอร์ | บูล | ||
คุณภาพ/พัดโบก | เทนเซอร์ | บูล | ||
คุณภาพ/จังหวะ-ซิงค์ | เทนเซอร์ | บูล | ||
ความเร็ว | ป้ายกำกับคลาส | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
nsynth/gansynth_subset.f0_and_loudness
คำอธิบาย การกำหนดค่า : ชุดข้อมูล NSynth จำกัด เฉพาะเครื่องดนตรีอะคูสติกในช่วงระยะเสียง MIDI [24, 84] ใช้การแยกแบบอื่นที่มีการทับซ้อนกันในเครื่องดนตรี (แต่ไม่ใช่โน้ตที่แน่นอน) ระหว่างชุดรถไฟและชุดที่ถูกต้อง/ทดสอบ ตัวแปรนี้ได้รับการแนะนำครั้งแรกในกระดาษ ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ) รุ่นนี้ยังมีค่าประมาณสำหรับ F0 โดยใช้ CREPE (Kim et al., 2018) และความดังของการรับรู้ที่ถ่วงน้ำหนัก A ในหน่วยเดซิเบล สัญญาณทั้งสองมีให้ที่อัตราเฟรม 250Hz
ขนาดการดาวน์โหลด :
73.08 GiB
ขนาดชุดข้อมูล :
22.03 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 8,518 |
'train' | 60,788 |
'valid' | 17,469 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'f0': FeaturesDict({
'confidence': Tensor(shape=(1000,), dtype=float32),
'hz': Tensor(shape=(1000,), dtype=float32),
'midi': Tensor(shape=(1000,), dtype=float32),
}),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'loudness': FeaturesDict({
'db': Tensor(shape=(1000,), dtype=float32),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เสียง | เครื่องเสียง | (64000,) | ลอย32 | |
ฉ0 | คุณสมบัติDict | |||
f0/ค่าความเชื่อมั่น | เทนเซอร์ | (1,000,) | ลอย32 | |
f0/เฮิร์ตซ์ | เทนเซอร์ | (1,000,) | ลอย32 | |
f0/มิดิ | เทนเซอร์ | (1,000,) | ลอย32 | |
รหัส | เทนเซอร์ | สตริง | ||
อุปกรณ์ | คุณสมบัติDict | |||
เครื่องดนตรี/ตระกูล | ป้ายกำกับคลาส | int64 | ||
เครื่องมือ / ฉลาก | ป้ายกำกับคลาส | int64 | ||
เครื่องดนตรี/แหล่งที่มา | ป้ายกำกับคลาส | int64 | ||
ความดัง | คุณสมบัติDict | |||
ความดัง/เดซิเบล | เทนเซอร์ | (1,000,) | ลอย32 | |
ขว้าง | ป้ายกำกับคลาส | int64 | ||
คุณภาพ | คุณสมบัติDict | |||
คุณภาพ/สว่าง | เทนเซอร์ | บูล | ||
คุณภาพ/มืด | เทนเซอร์ | บูล | ||
คุณภาพ/การบิดเบือน | เทนเซอร์ | บูล | ||
คุณภาพ/fast_decay | เทนเซอร์ | บูล | ||
คุณภาพ/long_release | เทนเซอร์ | บูล | ||
คุณภาพ/มัลติโฟนิก | เทนเซอร์ | บูล | ||
คุณภาพ/nonlinear_env | เทนเซอร์ | บูล | ||
คุณภาพ / กระทบ | เทนเซอร์ | บูล | ||
คุณภาพ/พัดโบก | เทนเซอร์ | บูล | ||
คุณภาพ/จังหวะ-ซิงค์ | เทนเซอร์ | บูล | ||
ความเร็ว | ป้ายกำกับคลาส | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):