- Mô tả :
Bộ dữ liệu NSynth là một bộ dữ liệu âm thanh chứa ~ 300k nốt nhạc, mỗi nốt nhạc có cao độ, âm sắc và phong bì riêng. Mỗi ghi chú được chú thích với ba phần thông tin bổ sung dựa trên sự kết hợp giữa đánh giá của con người và các thuật toán kinh nghiệm: Nguồn, Gia đình và Phẩm chất.
Trang chủ : https://g.co/magenta/nsynth-dataset
Mã nguồn :
tfds.audio.Nsynth
Các phiên bản :
-
2.3.0
: Tính năngloudness_db
mới tính bằng decibel (chưa chuẩn hóa). -
2.3.1
: F0 được tính toán với bản sửa lỗi chuẩn hóa trong CREPE. -
2.3.2
: Sử dụng tính năng Audio. -
2.3.3
(mặc định): F0 được tính toán với bản sửa lỗi trong chuẩn hóa sóng CREPE ( https://github.com/marl/crepe/issues/49 ).
-
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :
@InProceedings{pmlr-v70-engel17a,
title = {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
author = {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
booktitle = {Proceedings of the 34th International Conference on Machine Learning},
pages = {1068--1077},
year = {2017},
editor = {Doina Precup and Yee Whye Teh},
volume = {70},
series = {Proceedings of Machine Learning Research},
address = {International Convention Centre, Sydney, Australia},
month = {06--11 Aug},
publisher = {PMLR},
pdf = {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
url = {http://proceedings.mlr.press/v70/engel17a.html},
}
nsynth / full (cấu hình mặc định)
Mô tả cấu hình : Tập dữ liệu NSynth đầy đủ được chia thành các tập hợp tàu, hợp lệ và thử nghiệm, không có công cụ nào trùng lặp giữa tập tàu và các tập hợp lệ / thử nghiệm.
Kích thước tải xuống :
73.07 GiB
Kích thước tập dữ liệu:
73.09 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 4.096 |
'train' | 289.205 |
'valid' | 12.678 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=tf.float32),
'id': tf.string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
'qualities': FeaturesDict({
'bright': tf.bool,
'dark': tf.bool,
'distortion': tf.bool,
'fast_decay': tf.bool,
'long_release': tf.bool,
'multiphonic': tf.bool,
'nonlinear_env': tf.bool,
'percussive': tf.bool,
'reverb': tf.bool,
'tempo-synced': tf.bool,
}),
'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
âm thanh | Âm thanh | (64000,) | tf.float32 | |
Tôi | Tensor | tf.string | ||
dụng cụ | Các tính năng | |||
cụ / gia đình | ClassLabel | tf.int64 | ||
dụng cụ / nhãn hiệu | ClassLabel | tf.int64 | ||
dụng cụ / nguồn | ClassLabel | tf.int64 | ||
sân bóng đá | ClassLabel | tf.int64 | ||
phẩm chất | Các tính năng | |||
phẩm chất / tươi sáng | Tensor | tf.bool | ||
phẩm chất / tối | Tensor | tf.bool | ||
phẩm chất / biến dạng | Tensor | tf.bool | ||
chất lượng / fast_decay | Tensor | tf.bool | ||
chất lượng / long_release | Tensor | tf.bool | ||
phẩm chất / đa âm | Tensor | tf.bool | ||
chất lượng / nonlinear_env | Tensor | tf.bool | ||
phẩm chất / bộ gõ | Tensor | tf.bool | ||
phẩm chất / hồi âm | Tensor | tf.bool | ||
chất lượng / nhịp độ được đồng bộ hóa | Tensor | tf.bool | ||
vận tốc | ClassLabel | tf.int64 |
nsynth / gansynth_subset
Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách thay thế có sự trùng lặp trong các nhạc cụ (nhưng không phải là các nốt chính xác) giữa bộ tàu và bộ hợp lệ / thử nghiệm. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).
Kích thước tải xuống :
73.08 GiB
Kích thước tập dữ liệu :
20.73 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 8.518 |
'train' | 60.788 |
'valid' | 17.469 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=tf.float32),
'id': tf.string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
'qualities': FeaturesDict({
'bright': tf.bool,
'dark': tf.bool,
'distortion': tf.bool,
'fast_decay': tf.bool,
'long_release': tf.bool,
'multiphonic': tf.bool,
'nonlinear_env': tf.bool,
'percussive': tf.bool,
'reverb': tf.bool,
'tempo-synced': tf.bool,
}),
'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
âm thanh | Âm thanh | (64000,) | tf.float32 | |
Tôi | Tensor | tf.string | ||
dụng cụ | Các tính năng | |||
cụ / gia đình | ClassLabel | tf.int64 | ||
dụng cụ / nhãn hiệu | ClassLabel | tf.int64 | ||
dụng cụ / nguồn | ClassLabel | tf.int64 | ||
sân bóng đá | ClassLabel | tf.int64 | ||
phẩm chất | Các tính năng | |||
phẩm chất / tươi sáng | Tensor | tf.bool | ||
phẩm chất / tối | Tensor | tf.bool | ||
phẩm chất / biến dạng | Tensor | tf.bool | ||
chất lượng / fast_decay | Tensor | tf.bool | ||
chất lượng / long_release | Tensor | tf.bool | ||
phẩm chất / đa âm | Tensor | tf.bool | ||
chất lượng / nonlinear_env | Tensor | tf.bool | ||
phẩm chất / bộ gõ | Tensor | tf.bool | ||
phẩm chất / hồi âm | Tensor | tf.bool | ||
chất lượng / nhịp độ được đồng bộ hóa | Tensor | tf.bool | ||
vận tốc | ClassLabel | tf.int64 |
nsynth / gansynth_subset.f0_and_loudness
Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách thay thế có sự trùng lặp trong các nhạc cụ (nhưng không phải là các nốt chính xác) giữa bộ tàu và bộ hợp lệ / thử nghiệm. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Phiên bản này cũng chứa các ước tính cho F0 bằng cách sử dụng CREPE (Kim và cộng sự, 2018) và độ ồn cảm nhận trọng số A tính bằng decibel. Cả hai tín hiệu đều được cung cấp ở tốc độ khung hình 250Hz.
Kích thước tải xuống :
73.08 GiB
Kích thước tập dữ liệu :
22.03 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 8.518 |
'train' | 60.788 |
'valid' | 17.469 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=tf.float32),
'f0': FeaturesDict({
'confidence': Tensor(shape=(1000,), dtype=tf.float32),
'hz': Tensor(shape=(1000,), dtype=tf.float32),
'midi': Tensor(shape=(1000,), dtype=tf.float32),
}),
'id': tf.string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
}),
'loudness': FeaturesDict({
'db': Tensor(shape=(1000,), dtype=tf.float32),
}),
'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
'qualities': FeaturesDict({
'bright': tf.bool,
'dark': tf.bool,
'distortion': tf.bool,
'fast_decay': tf.bool,
'long_release': tf.bool,
'multiphonic': tf.bool,
'nonlinear_env': tf.bool,
'percussive': tf.bool,
'reverb': tf.bool,
'tempo-synced': tf.bool,
}),
'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
âm thanh | Âm thanh | (64000,) | tf.float32 | |
f0 | Các tính năng | |||
f0 / sự tự tin | Tensor | (1000,) | tf.float32 | |
f0 / hz | Tensor | (1000,) | tf.float32 | |
f0 / midi | Tensor | (1000,) | tf.float32 | |
Tôi | Tensor | tf.string | ||
dụng cụ | Các tính năng | |||
cụ / gia đình | ClassLabel | tf.int64 | ||
dụng cụ / nhãn hiệu | ClassLabel | tf.int64 | ||
dụng cụ / nguồn | ClassLabel | tf.int64 | ||
sự ồn ào | Các tính năng | |||
độ lớn / db | Tensor | (1000,) | tf.float32 | |
sân bóng đá | ClassLabel | tf.int64 | ||
phẩm chất | Các tính năng | |||
phẩm chất / tươi sáng | Tensor | tf.bool | ||
phẩm chất / tối | Tensor | tf.bool | ||
phẩm chất / biến dạng | Tensor | tf.bool | ||
chất lượng / fast_decay | Tensor | tf.bool | ||
chất lượng / long_release | Tensor | tf.bool | ||
phẩm chất / đa âm | Tensor | tf.bool | ||
chất lượng / nonlinear_env | Tensor | tf.bool | ||
phẩm chất / bộ gõ | Tensor | tf.bool | ||
phẩm chất / hồi âm | Tensor | tf.bool | ||
chất lượng / nhịp độ được đồng bộ hóa | Tensor | tf.bool | ||
vận tốc | ClassLabel | tf.int64 |