gtzan

  • Descrição :

O conjunto de dados consiste em 1000 faixas de áudio com duração de 30 segundos cada. Ele contém 10 gêneros, cada um representado por 100 faixas. As faixas são todos arquivos de áudio mono de 16 bits de 22050 Hz no formato .wav.

Os gêneros são:

Dividir Exemplos
'train' 1.000
  • Estrutura de recursos :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
áudio áudio (Nenhum,) int64
áudio/nome do arquivo Texto corda
etiqueta ClassLabel int64
  • Citação :
@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}