AudioSpectrogram

パブリック最終クラスAudioSpectrogram

時間の経過に伴うオーディオ データの視覚化を生成します。

スペクトログラムは、オーディオ情報を周波数情報の一連のスライス (時間ウィンドウごとに 1 つのスライス) として表現する標準的な方法です。これらをシーケンスに結合することで、時間の経過とともに独特のサウンドの指紋が形成されます。

この演算は、サンプル単位のウィンドウ幅と、スライス間でウィンドウを移動する距離を指定するストライドとともに、-1 ~ 1 の範囲の浮動小数点数として保存されたオーディオ データを入力として受け取ることを想定しています。これから 3 次元の出力が生成されます。最初の次元は入力のチャンネル用であるため、たとえばステレオ オーディオ入力には 2 つの次元があります。 2 番目の次元は時間であり、連続する周波数スライスが含まれます。 3 番目の次元には、そのタイム スライス中の各周波数の振幅値があります。

これは、変換して画像として保存したときのレイアウトが、一般的なスペクトログラムから時計回りに 90 度回転していることを意味します。時間は Y 軸に沿って下降し、周波数は左から右に減少します。

結果の各値は、現在のサンプル ウィンドウでの FFT の実数部と虚数部の合計の平方根を表します。このようにして、最も低い次元は現在のウィンドウ内の各周波数のパワーを表し、隣接するウィンドウは次の次元で連結されます。

この操作が何を行うかをより直観的かつ視覚的に確認するには、tensorflow/examples/wav_to_spectrogram を実行してオーディオ ファイルを読み取り、結果のスペクトログラムを PNG 画像として保存します。

ネストされたクラス

クラスAudioSpectrogram.オプションAudioSpectrogramのオプションの属性

定数

OP_NAME TensorFlow コア エンジンによって認識される、この演算の名前

パブリックメソッド

出力< TFloat32 >
asOutput ()
テンソルのシンボリック ハンドルを返します。
静的オーディオスペクトログラム
create ( Scopeスコープ、オペランド< TFloat32 > 入力、Long windowSize、Long stride、 Options...オプション)
新しい AudioSpectrogram オペレーションをラップするクラスを作成するためのファクトリ メソッド。
静的AudioSpectrogram.Options
マグニチュードの二乗(ブール値のマグニチュードの二乗)
出力< TFloat32 >
スペクトログラム()
オーディオ周波数を画像として 3D 表現します。

継承されたメソッド

定数

パブリック静的最終文字列OP_NAME

TensorFlow コア エンジンによって認識される、この演算の名前

定数値: 「オーディオスペクトログラム」

パブリックメソッド

public Output < TFloat32 > asOutput ()

テンソルのシンボリック ハンドルを返します。

TensorFlow オペレーションへの入力は、別の TensorFlow オペレーションの出力です。このメソッドは、入力の計算を表すシンボリック ハンドルを取得するために使用されます。

public static AudioSpectrogram create (スコープスコープ、オペランド< TFloat32 > 入力、Long windowSize、Long stride、 Options...オプション)

新しい AudioSpectrogram オペレーションをラップするクラスを作成するためのファクトリ メソッド。

パラメーター
範囲現在のスコープ
入力音声データの浮動小数点表現。
ウィンドウサイズサンプルの入力ウィンドウの幅。最高の効率を得るには、これは 2 のべき乗である必要がありますが、他の値も受け入れられます。
ストライド隣接するサンプル ウィンドウの中心の間隔。
オプションオプションの属性値を持ちます
戻り値
  • AudioSpectrogram の新しいインスタンス

public static AudioSpectrogram.Options MagnitudeSquared (ブール値の MagnitudeSquared)

パラメーター
大きさの二乗大きさの 2 乗を返すか、大きさだけを返すか。絶対値の 2 乗を使用すると、余分な計算を回避できます。

public出力< TFloat32 >スペクトログラム()

オーディオ周波数を画像として 3D 表現します。