gtzan

Descriptif :

L'ensemble de données se compose de 1000 pistes audio de 30 secondes chacune. Il contient 10 genres, chacun représenté par 100 pistes. Les pistes sont toutes des fichiers audio 22050 Hz Mono 16 bits au format .wav.

Les genres sont :

le blues
classique
pays
disco
hip hop
le jazz
métal
populaire
reggae
rock
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : http://marsyas.info/index.html
Code source : tfds.audio.gtzan.GTZAN
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : 1.14 GiB
Taille du jeu de données : 3.71 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
l'audio	l'audio	(Aucun,)	int64
audio/nom de fichier	Texte		chaîne de caractères
étiquette	Étiquette de classe		int64

Touches supervisées (Voir as_supervised doc ): ('audio', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}

gtzan Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

gtzan