Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

gtzan

Descrição :

O conjunto de dados consiste em 1000 faixas de áudio com duração de 30 segundos cada. Ele contém 10 gêneros, cada um representado por 100 faixas. As faixas são todos arquivos de áudio mono de 16 bits de 22050 Hz no formato .wav.

Os gêneros são:

blues
clássico
país
discoteca
hip-hop
jazz
metal
pop
reggae
Rocha
Documentação Adicional : Explore em Papers With Code
Página inicial : http://marsyas.info/index.html
Código fonte : tfds.audio.gtzan.GTZAN
Versões :
- 1.0.0 (padrão): sem notas de versão.
Tamanho do download : 1.14 GiB
Tamanho do conjunto de dados : 3.71 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	1.000

Estrutura de recursos :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
áudio	áudio	(Nenhum,)	int64
áudio/nome do arquivo	Texto		corda
etiqueta	ClassLabel		int64

Chaves supervisionadas (consulte o documento as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):

Citação :

@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}

gtzan Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

gtzan