nsynth

  • Mô tả :

Bộ dữ liệu NSynth là một bộ dữ liệu âm thanh chứa ~300 nghìn nốt nhạc, mỗi nốt nhạc có một cao độ, âm sắc và đường bao riêng. Mỗi ghi chú được chú thích bằng ba mẩu thông tin bổ sung dựa trên sự kết hợp giữa đánh giá của con người và thuật toán heuristic: Nguồn, Dòng và Chất lượng.

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/đầy đủ (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu NSynth đầy đủ được chia thành các bộ đào tạo, hợp lệ và kiểm tra, không có công cụ nào chồng chéo giữa bộ đào tạo và các bộ hợp lệ/kiểm tra.

  • Kích thước tải xuống : 73.07 GiB

  • Kích thước tập dữ liệu : 73.09 GiB

  • Chia tách :

Tách ra ví dụ
'test' 4,096
'train' 289,205
'valid' 12,678
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
âm thanh âm thanh (64000,) phao32
nhận dạng tenxơ sợi dây
dụng cụ Tính năngDict
nhạc cụ/gia đình LớpNhãn int64
dụng cụ/nhãn LớpNhãn int64
nhạc cụ/nguồn LớpNhãn int64
sân bóng đá LớpNhãn int64
phẩm chất Tính năngDict
phẩm chất / tươi sáng tenxơ bool
phẩm chất / bóng tối tenxơ bool
phẩm chất / biến dạng tenxơ bool
phẩm chất/fast_decay tenxơ bool
phẩm chất/long_release tenxơ bool
phẩm chất/đa âm tenxơ bool
phẩm chất/phi tuyến_env tenxơ bool
phẩm chất / bộ gõ tenxơ bool
phẩm chất / hồi âm tenxơ bool
chất lượng/đồng bộ hóa nhịp độ tenxơ bool
vận tốc LớpNhãn int64

nsynth/gansynth_subset

  • Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách xen kẽ có chồng chéo trong các nhạc cụ (nhưng không phải nốt chính xác) giữa tập luyện và tập hợp lệ/kiểm tra. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).

  • Kích thước tải xuống : 73.08 GiB

  • Kích thước tập dữ liệu : 20.73 GiB

  • Chia tách :

Tách ra ví dụ
'test' 8,518
'train' 60,788
'valid' 17,469
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
âm thanh âm thanh (64000,) phao32
nhận dạng tenxơ sợi dây
dụng cụ Tính năngDict
nhạc cụ/gia đình LớpNhãn int64
dụng cụ/nhãn LớpNhãn int64
nhạc cụ/nguồn LớpNhãn int64
sân bóng đá LớpNhãn int64
phẩm chất Tính năngDict
phẩm chất / tươi sáng tenxơ bool
phẩm chất / bóng tối tenxơ bool
phẩm chất / biến dạng tenxơ bool
phẩm chất/fast_decay tenxơ bool
phẩm chất/long_release tenxơ bool
phẩm chất/đa âm tenxơ bool
phẩm chất/phi tuyến_env tenxơ bool
phẩm chất / bộ gõ tenxơ bool
phẩm chất / hồi âm tenxơ bool
chất lượng/đồng bộ hóa nhịp độ tenxơ bool
vận tốc LớpNhãn int64

nsynth/gansynth_subset.f0_and_loudness

  • Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách xen kẽ có chồng chéo trong các nhạc cụ (nhưng không phải nốt chính xác) giữa tập luyện và tập hợp lệ/kiểm tra. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Ngoài ra, phiên bản này chứa các ước tính cho F0 bằng cách sử dụng CREPE (Kim và cộng sự, 2018) và độ ồn cảm nhận trọng số A tính bằng decibel. Cả hai tín hiệu đều được cung cấp ở tốc độ khung hình 250Hz.

  • Kích thước tải xuống : 73.08 GiB

  • Kích thước tập dữ liệu : 22.03 GiB

  • Chia tách :

Tách ra ví dụ
'test' 8,518
'train' 60,788
'valid' 17,469
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=float32),
        'hz': Tensor(shape=(1000,), dtype=float32),
        'midi': Tensor(shape=(1000,), dtype=float32),
    }),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
âm thanh âm thanh (64000,) phao32
f0 Tính năngDict
f0/sự tự tin tenxơ (1000,) phao32
f0/hz tenxơ (1000,) phao32
f0/midi tenxơ (1000,) phao32
nhận dạng tenxơ sợi dây
dụng cụ Tính năngDict
nhạc cụ/gia đình LớpNhãn int64
dụng cụ/nhãn LớpNhãn int64
nhạc cụ/nguồn LớpNhãn int64
độ to Tính năngDict
độ to/db tenxơ (1000,) phao32
sân bóng đá LớpNhãn int64
phẩm chất Tính năngDict
phẩm chất / tươi sáng tenxơ bool
phẩm chất / bóng tối tenxơ bool
phẩm chất / biến dạng tenxơ bool
phẩm chất/fast_decay tenxơ bool
phẩm chất/long_release tenxơ bool
phẩm chất/đa âm tenxơ bool
phẩm chất/phi tuyến_env tenxơ bool
phẩm chất / bộ gõ tenxơ bool
phẩm chất / hồi âm tenxơ bool
chất lượng/đồng bộ hóa nhịp độ tenxơ bool
vận tốc LớpNhãn int64