- Descrição :
O conjunto de dados consiste em 1000 faixas de áudio com duração de 30 segundos cada. Ele contém 10 gêneros, cada um representado por 100 faixas. As faixas são todos arquivos de áudio mono de 16 bits de 22050 Hz no formato .wav.
Os gêneros são:
- blues
- clássico
- país
- discoteca
- hip-hop
- jazz
- metal
- pop
- reggae
Rocha
Documentação Adicional : Explore em Papers With Code
Página inicial : http://marsyas.info/index.html
Código fonte :
tfds.audio.gtzan.GTZAN
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
1.14 GiB
Tamanho do conjunto de dados :
3.71 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.000 |
- Estrutura de recursos :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
áudio | áudio | (Nenhum,) | int64 | |
áudio/nome do arquivo | Texto | corda | ||
etiqueta | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{tzanetakis_essl_cook_2001,
author = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title = "Automatic Musical Genre Classification Of Audio Signals",
url = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year = "2001"
}