- Descrição :
O conjunto de dados foi coletado para fins de discriminação de música/fala. O conjunto de dados consiste em 120 faixas, cada uma com 30 segundos de duração. Cada aula (música/fala) tem 60 exemplos. As faixas são todos arquivos de áudio mono de 16 bits de 22050 Hz no formato .wav.
Documentação Adicional : Explore em Papers With Code
Página inicial : http://marsyas.info/index.html
Código fonte :
tfds.audio.gtzan_music_speech.GTZANMusicSpeech
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
283.29 MiB
Tamanho do conjunto de dados :
424.64 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 128 |
- Estrutura de recursos :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
áudio | áudio | (Nenhum,) | int64 | |
áudio/nome do arquivo | Texto | corda | ||
etiqueta | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@ONLINE {Music Speech,
author = "Tzanetakis, George",
title = "GTZAN Music/Speech Collection",
year = "1999",
url = "http://marsyas.info/index.html"
}