nsynth

  • Mô tả :

Bộ dữ liệu NSynth là một bộ dữ liệu âm thanh chứa ~ 300k nốt nhạc, mỗi nốt nhạc có cao độ, âm sắc và phong bì riêng. Mỗi ghi chú được chú thích với ba phần thông tin bổ sung dựa trên sự kết hợp giữa đánh giá của con người và các thuật toán kinh nghiệm: Nguồn, Gia đình và Phẩm chất.

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth / full (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu NSynth đầy đủ được chia thành các tập hợp tàu, hợp lệ và thử nghiệm, không có công cụ nào trùng lặp giữa tập tàu và các tập hợp lệ / thử nghiệm.

  • Kích thước tải xuống : 73.07 GiB

  • Kích thước tập dữ liệu: 73.09 GiB

  • Tách :

Tách ra Các ví dụ
'test' 4.096
'train' 289.205
'valid' 12.678
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=tf.float32),
    'id': tf.string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': tf.bool,
        'dark': tf.bool,
        'distortion': tf.bool,
        'fast_decay': tf.bool,
        'long_release': tf.bool,
        'multiphonic': tf.bool,
        'nonlinear_env': tf.bool,
        'percussive': tf.bool,
        'reverb': tf.bool,
        'tempo-synced': tf.bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
âm thanh Âm thanh (64000,) tf.float32
Tôi Tensor tf.string
dụng cụ Các tính năng
cụ / gia đình ClassLabel tf.int64
dụng cụ / nhãn hiệu ClassLabel tf.int64
dụng cụ / nguồn ClassLabel tf.int64
sân bóng đá ClassLabel tf.int64
phẩm chất Các tính năng
phẩm chất / tươi sáng Tensor tf.bool
phẩm chất / tối Tensor tf.bool
phẩm chất / biến dạng Tensor tf.bool
chất lượng / fast_decay Tensor tf.bool
chất lượng / long_release Tensor tf.bool
phẩm chất / đa âm Tensor tf.bool
chất lượng / nonlinear_env Tensor tf.bool
phẩm chất / bộ gõ Tensor tf.bool
phẩm chất / hồi âm Tensor tf.bool
chất lượng / nhịp độ được đồng bộ hóa Tensor tf.bool
vận tốc ClassLabel tf.int64

nsynth / gansynth_subset

  • Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách thay thế có sự trùng lặp trong các nhạc cụ (nhưng không phải là các nốt chính xác) giữa bộ tàu và bộ hợp lệ / thử nghiệm. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).

  • Kích thước tải xuống : 73.08 GiB

  • Kích thước tập dữ liệu : 20.73 GiB

  • Tách :

Tách ra Các ví dụ
'test' 8.518
'train' 60.788
'valid' 17.469
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=tf.float32),
    'id': tf.string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': tf.bool,
        'dark': tf.bool,
        'distortion': tf.bool,
        'fast_decay': tf.bool,
        'long_release': tf.bool,
        'multiphonic': tf.bool,
        'nonlinear_env': tf.bool,
        'percussive': tf.bool,
        'reverb': tf.bool,
        'tempo-synced': tf.bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
âm thanh Âm thanh (64000,) tf.float32
Tôi Tensor tf.string
dụng cụ Các tính năng
cụ / gia đình ClassLabel tf.int64
dụng cụ / nhãn hiệu ClassLabel tf.int64
dụng cụ / nguồn ClassLabel tf.int64
sân bóng đá ClassLabel tf.int64
phẩm chất Các tính năng
phẩm chất / tươi sáng Tensor tf.bool
phẩm chất / tối Tensor tf.bool
phẩm chất / biến dạng Tensor tf.bool
chất lượng / fast_decay Tensor tf.bool
chất lượng / long_release Tensor tf.bool
phẩm chất / đa âm Tensor tf.bool
chất lượng / nonlinear_env Tensor tf.bool
phẩm chất / bộ gõ Tensor tf.bool
phẩm chất / hồi âm Tensor tf.bool
chất lượng / nhịp độ được đồng bộ hóa Tensor tf.bool
vận tốc ClassLabel tf.int64

nsynth / gansynth_subset.f0_and_loudness

  • Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách thay thế có sự trùng lặp trong các nhạc cụ (nhưng không phải là các nốt chính xác) giữa bộ tàu và bộ hợp lệ / thử nghiệm. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Phiên bản này cũng chứa các ước tính cho F0 bằng cách sử dụng CREPE (Kim và cộng sự, 2018) và độ ồn cảm nhận trọng số A tính bằng decibel. Cả hai tín hiệu đều được cung cấp ở tốc độ khung hình 250Hz.

  • Kích thước tải xuống : 73.08 GiB

  • Kích thước tập dữ liệu : 22.03 GiB

  • Tách :

Tách ra Các ví dụ
'test' 8.518
'train' 60.788
'valid' 17.469
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=tf.float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=tf.float32),
        'hz': Tensor(shape=(1000,), dtype=tf.float32),
        'midi': Tensor(shape=(1000,), dtype=tf.float32),
    }),
    'id': tf.string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=tf.float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': tf.bool,
        'dark': tf.bool,
        'distortion': tf.bool,
        'fast_decay': tf.bool,
        'long_release': tf.bool,
        'multiphonic': tf.bool,
        'nonlinear_env': tf.bool,
        'percussive': tf.bool,
        'reverb': tf.bool,
        'tempo-synced': tf.bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
âm thanh Âm thanh (64000,) tf.float32
f0 Các tính năng
f0 / sự tự tin Tensor (1000,) tf.float32
f0 / hz Tensor (1000,) tf.float32
f0 / midi Tensor (1000,) tf.float32
Tôi Tensor tf.string
dụng cụ Các tính năng
cụ / gia đình ClassLabel tf.int64
dụng cụ / nhãn hiệu ClassLabel tf.int64
dụng cụ / nguồn ClassLabel tf.int64
sự ồn ào Các tính năng
độ lớn / db Tensor (1000,) tf.float32
sân bóng đá ClassLabel tf.int64
phẩm chất Các tính năng
phẩm chất / tươi sáng Tensor tf.bool
phẩm chất / tối Tensor tf.bool
phẩm chất / biến dạng Tensor tf.bool
chất lượng / fast_decay Tensor tf.bool
chất lượng / long_release Tensor tf.bool
phẩm chất / đa âm Tensor tf.bool
chất lượng / nonlinear_env Tensor tf.bool
phẩm chất / bộ gõ Tensor tf.bool
phẩm chất / hồi âm Tensor tf.bool
chất lượng / nhịp độ được đồng bộ hóa Tensor tf.bool
vận tốc ClassLabel tf.int64