làm phiền

  • Mô tả :

Bộ dữ liệu Free Universal Sound Separation (FUSS) là cơ sở dữ liệu gồm các hỗn hợp âm thanh tùy ý và tham chiếu cấp nguồn, để sử dụng trong các thử nghiệm về tách âm thanh tùy ý.

Đây là dữ liệu phân tách âm thanh chính thức cho Nhiệm vụ 4 của Thử thách DCASE2020: Phát hiện và phân tách sự kiện âm thanh trong môi trường trong nhà.

Tổng quan: Dữ liệu âm thanh FUSS được lấy từ bộ dữ liệu Freesound tiền phát hành được gọi là (FSD50k), bộ dữ liệu sự kiện âm thanh bao gồm nội dung Freesound được chú thích bằng nhãn từ AudioSet Ontology. Bằng cách sử dụng nhãn FSD50K, các tệp nguồn này đã được sàng lọc sao cho chúng có khả năng chỉ chứa một loại âm thanh duy nhất. Nhãn không được cung cấp cho các tệp nguồn này và không được coi là một phần của thử thách. Vì mục đích của thử thách Phát hiện sự kiện và Phân tách âm thanh Nhiệm vụ DCASE 4, các hệ thống không nên sử dụng nhãn FSD50K, mặc dù chúng có thể khả dụng khi phát hành FSD50K.

Để tạo hỗn hợp, các đoạn nguồn dài 10 giây được kết hợp với các phản ứng xung trong phòng mô phỏng và được cộng lại với nhau. Mỗi hỗn hợp 10 giây chứa từ 1 đến 4 nguồn. Tệp nguồn dài hơn 10 giây được coi là nguồn "nền". Mỗi hỗn hợp chứa một nguồn nền hoạt động trong toàn bộ thời lượng. Chúng tôi cung cấp: công thức phần mềm để tạo tập dữ liệu, phản hồi xung của phòng và âm thanh nguồn gốc.

Tách ra ví dụ
'test' 1.000
'train' 20.000
'validation' 1.000
  • Cấu trúc tính năng :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Tôi tenxơ sợi dây
ùn tắc tenxơ sợi dây
hỗn hợp_âm thanh âm thanh (160000,) int16
phân đoạn Sự phối hợp
phân đoạn/end_time_seconds tenxơ phao32
phân đoạn/nhãn tenxơ sợi dây
phân đoạn/start_time_seconds tenxơ phao32
nguồn Sự phối hợp
nguồn/âm thanh âm thanh (160000,) int16
nguồn/nhãn LớpNhãn int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

ồn ào/âm vang (cấu hình mặc định)

  • Mô tả cấu hình : Âm thanh dội lại mặc định.

  • Kích thước tải xuống : 7.35 GiB

  • Kích thước tập dữ liệu : 43.20 GiB

  • Ví dụ ( tfds.as_dataframe ):

ồn ào / chưa qua xử lý

  • Mô tả cấu hình : Âm thanh chưa qua xử lý không có âm vang bổ sung.

  • Kích thước tải xuống : 8.28 GiB

  • Kích thước tập dữ liệu : 45.58 GiB

  • Ví dụ ( tfds.as_dataframe ):