- Descrição :
O Free Universal Sound Separation (FUSS) Dataset é um banco de dados de misturas arbitrárias de som e referências de nível de fonte, para uso em experimentos de separação arbitrária de som.
Estes são os dados oficiais de separação de som para a Tarefa 4 do Desafio DCASE2020: Detecção e Separação de Eventos Sonoros em Ambientes Domésticos.
Visão geral: os dados de áudio FUSS são provenientes de um pré-lançamento do conjunto de dados Freesound conhecido como (FSD50k), um conjunto de dados de evento de som composto de conteúdo Freesound anotado com rótulos da AudioSet Ontology. Usando os rótulos FSD50K, esses arquivos de origem foram selecionados de forma que provavelmente contenham apenas um único tipo de som. Os rótulos não são fornecidos para esses arquivos de origem e não são considerados parte do desafio. Para fins do desafio DCASE Task4 Sound Separation and Event Detection, os sistemas não devem usar rótulos FSD50K, mesmo que eles possam se tornar disponíveis após o lançamento do FSD50K.
Para criar misturas, clipes de fontes de 10 segundos são convoluídos com respostas de impulso de sala simuladas e adicionados juntos. Cada mistura de 10 segundos contém entre 1 e 4 fontes. Arquivos de origem com mais de 10 segundos são considerados fontes de "segundo plano". Cada mistura contém uma fonte de fundo, que está ativa durante toda a duração. Fornecemos: uma receita de software para criar o conjunto de dados, as respostas de impulso da sala e a fonte de áudio original.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Código -fonte:
tfds.audio.Fuss
Versões :
-
1.2.0
(padrão): sem notas de versão.
-
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.000 |
'train' | 20.000 |
'validation' | 1.000 |
- Estrutura de recursos :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Eu iria | tensor | corda | ||
geléias | tensor | corda | ||
mix_audio | áudio | (160000,) | int16 | |
segmentos | Seqüência | |||
segmentos/end_time_seconds | tensor | float32 | ||
segmentos/rótulo | tensor | corda | ||
segmentos/start_time_seconds | tensor | float32 | ||
fontes | Seqüência | |||
fontes/áudio | áudio | (160000,) | int16 | |
fontes/rótulo | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):('mixture_audio', 'sources')
Figura ( tfds.show_examples ): Não compatível.
Citação :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
barulho/reverberante (configuração padrão)
Descrição da configuração : Áudio reverberado padrão.
Tamanho do download :
7.35 GiB
Tamanho do conjunto de dados :
43.20 GiB
Exemplos ( tfds.as_dataframe ):
barulho/não processado
Descrição da configuração : Áudio não processado sem reverberação adicional.
Tamanho do download :
8.28 GiB
Tamanho do conjunto de dados :
45.58 GiB
Exemplos ( tfds.as_dataframe ):