AudioSpectrogram

Classe finale publique AudioSpectrogram

Produit une visualisation des données audio au fil du temps.

Les spectrogrammes sont un moyen standard de représenter les informations audio sous la forme d'une série de tranches d'informations de fréquence, une tranche pour chaque fenêtre temporelle. En les réunissant dans une séquence, ils forment une empreinte distinctive du son au fil du temps.

Cette opération s'attend à recevoir des données audio en entrée, stockées sous forme de flottants dans la plage -1 à 1, ainsi qu'une largeur de fenêtre en échantillons et une foulée spécifiant jusqu'où déplacer la fenêtre entre les tranches. À partir de là, il génère une sortie tridimensionnelle. La première dimension concerne les canaux de l'entrée, donc une entrée audio stéréo en aurait deux ici par exemple. La deuxième dimension est le temps, avec des tranches de fréquence successives. La troisième dimension a une valeur d'amplitude pour chaque fréquence pendant cette tranche de temps.

Cela signifie que la mise en page, une fois convertie et enregistrée en tant qu'image, pivote de 90 degrés dans le sens des aiguilles d'une montre par rapport à un spectrogramme typique. Le temps descend sur l'axe Y et la fréquence diminue de gauche à droite.

Chaque valeur du résultat représente la racine carrée de la somme des parties réelles et imaginaires d'une FFT sur la fenêtre d'échantillons actuelle. De cette façon, la dimension la plus basse représente la puissance de chaque fréquence dans la fenêtre actuelle, et les fenêtres adjacentes sont concaténées dans la dimension suivante.

Pour avoir un aperçu plus intuitif et visuel de ce que fait cette opération, vous pouvez exécuter tensorflow/examples/wav_to_spectrogram pour lire un fichier audio et enregistrer le spectrogramme résultant sous forme d'image PNG.

Classes imbriquées

classe AudioSpectrogram.Options Attributs facultatifs pour AudioSpectrogram

Constantes

Chaîne OP_NAME Le nom de cette opération, tel que connu par le moteur principal TensorFlow

Méthodes publiques

Sortie < TFloat32 >
comme Sortie ()
Renvoie le handle symbolique du tenseur.
AudioSpectrogramme statique
créer ( Portée de portée , Opérande < TFloat32 > entrée, Taille de fenêtre longue, Foulée longue, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération AudioSpectrogram.
AudioSpectrogram.Options statique
magnitudeSquared (magnitude booléenneSquared)
Sortie < TFloat32 >
spectrogramme ()
Représentation 3D des fréquences audio sous forme d'image.

Méthodes héritées

Constantes

chaîne finale statique publique OP_NAME

Le nom de cette opération, tel que connu par le moteur principal TensorFlow

Valeur constante : "AudioSpectrogram"

Méthodes publiques

Sortie publique < TFloat32 > asOutput ()

Renvoie le handle symbolique du tenseur.

Les entrées des opérations TensorFlow sont les sorties d'une autre opération TensorFlow. Cette méthode est utilisée pour obtenir un handle symbolique qui représente le calcul de l’entrée.

création d' un AudioSpectrogram statique public ( portée de portée , entrée opérande < TFloat32 >, taille de fenêtre longue, foulée longue, options... options)

Méthode d'usine pour créer une classe encapsulant une nouvelle opération AudioSpectrogram.

Paramètres
portée portée actuelle
saisir Représentation flottante des données audio.
la taille de la fenêtre Quelle est la largeur de la fenêtre de saisie en échantillons. Pour une efficacité maximale, cela devrait être une puissance de deux, mais d'autres valeurs sont acceptées.
foulée Dans quelle mesure le centre des fenêtres d'échantillon adjacentes doit-il être éloigné.
choix porte des valeurs d'attributs facultatifs
Retour
  • une nouvelle instance d'AudioSpectrogram

public statique AudioSpectrogram.Options magnitudeSquared (magnitude booléenneSquared)

Paramètres
ampleurCarré Qu'il s'agisse de renvoyer la magnitude au carré ou simplement la magnitude. L'utilisation de la grandeur au carré peut éviter des calculs supplémentaires.

sortie publique < TFloat32 > spectrogramme ()

Représentation 3D des fréquences audio sous forme d'image.