làm phiền

  • Mô tả :

Bộ dữ liệu Tách âm thanh toàn cầu miễn phí (FUSS) là cơ sở dữ liệu gồm các hỗn hợp âm thanh tùy ý và các tham chiếu mức nguồn, để sử dụng trong các thí nghiệm về tách âm thanh tùy ý.

Đây là dữ liệu phân tách âm thanh chính thức cho Nhiệm vụ 4 của Thử thách DCASE2020: Phát hiện và phân tách sự kiện âm thanh trong môi trường trong nước.

Tổng quan: Dữ liệu âm thanh FUSS được lấy từ bản phát hành trước của tập dữ liệu Freesound được gọi là (FSD50k), một tập dữ liệu sự kiện âm thanh bao gồm nội dung Freesound được chú thích bằng nhãn từ Bản thể học AudioSet. Sử dụng nhãn FSD50K, các tệp nguồn này đã được sàng lọc để chúng có thể chỉ chứa một loại âm thanh duy nhất. Nhãn không được cung cấp cho các tệp nguồn này và không được coi là một phần của thử thách. Với mục đích của thử thách Phát hiện sự kiện và Tách âm thanh DCASE Task4, các hệ thống không được sử dụng nhãn FSD50K, mặc dù chúng có thể khả dụng khi FSD50K phát hành.

Để tạo hỗn hợp, các đoạn nguồn 10 giây được xoay vòng với các phản ứng xung trong phòng được mô phỏng và được thêm vào với nhau. Mỗi 10 giây hỗn hợp chứa từ 1 đến 4 nguồn. Các tệp nguồn dài hơn 10 giây được coi là nguồn "nền". Mỗi hỗn hợp chứa một nguồn nền, nguồn này hoạt động trong toàn bộ thời gian. Chúng tôi cung cấp: một công thức phần mềm để tạo tập dữ liệu, phản hồi xung động trong phòng và âm thanh nguồn gốc.

Tách ra Các ví dụ
'test' 1.000
'train' 20.000
'validation' 1.000
  • Cấu trúc tính năng :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
Tôi Tensor tf.string
mứt Tensor tf.string
hỗn hợp_audio Âm thanh (160000,) tf.int16
phân đoạn Sự phối hợp
phân đoạn / end_time_seconds Tensor tf.float32
phân đoạn / nhãn Tensor tf.string
phân đoạn / start_time_seconds Tensor tf.float32
nguồn Sự phối hợp
nguồn / âm thanh Âm thanh (160000,) tf.int16
nguồn / nhãn ClassLabel tf.int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

ồn ào / vang dội (cấu hình mặc định)

  • Mô tả cấu hình : Âm thanh dội âm mặc định.

  • Kích thước tải xuống : 7.35 GiB

  • Kích thước tập dữ liệu : 43.20 GiB

phiền phức / chưa xử lý

  • Mô tả cấu hình : Âm thanh chưa qua xử lý mà không có độ vang bổ sung.

  • Kích thước tải xuống : 8.28 GiB

  • Kích thước tập dữ liệu : 45.58 GiB