AudioSpectrogram

publiczne zajęcia końcowe AudioSpectrogram

Tworzy wizualizację danych audio w czasie.

Spektrogramy to standardowy sposób przedstawiania informacji audio w postaci serii wycinków informacji o częstotliwości, po jednym wycinku na każde okno czasowe. Łącząc je w sekwencję, z biegiem czasu tworzą charakterystyczny odcisk palca.

Ta operacja oczekuje na wejściu danych audio, przechowywanych jako wartości zmiennoprzecinkowe w zakresie od -1 do 1, wraz z szerokością okna w próbkach i krokiem określającym, jak daleko należy przesunąć okno pomiędzy plasterkami. Na tej podstawie generuje trójwymiarowy wynik. Pierwszy wymiar dotyczy kanałów na wejściu, więc stereofoniczne wejście audio będzie miało na przykład dwa. Drugi wymiar to czas, z kolejnymi wycinkami częstotliwości. Trzeci wymiar ma wartość amplitudy dla każdej częstotliwości w tym przedziale czasu.

Oznacza to, że układ po przekonwertowaniu i zapisaniu jako obraz jest obracany o 90 stopni w kierunku zgodnym z ruchem wskazówek zegara w stosunku do typowego spektrogramu. Czas opada w dół osi Y, a częstotliwość maleje od lewej do prawej.

Każda wartość w wyniku reprezentuje pierwiastek kwadratowy z sumy części rzeczywistych i urojonych FFT w bieżącym oknie próbek. W ten sposób najniższy wymiar reprezentuje moc każdej częstotliwości w bieżącym oknie, a sąsiednie okna są łączone w następnym wymiarze.

Aby uzyskać bardziej intuicyjny i wizualny obraz działania tej operacji, możesz uruchomić tensorflow/examples/wav_to_spectrogram, aby wczytać plik audio i zapisać wynikowy spektrogram jako obraz PNG.

Klasy zagnieżdżone

klasa Opcje audiospektrogramu Opcjonalne atrybuty dla AudioSpectrogram

Stałe

Strunowy OP_NAME Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Metody publiczne

Dane wyjściowe <TFloat32>
jako wyjście ()
Zwraca symboliczny uchwyt tensora.
statyczny spektrogram audio
utwórz ( Zakres zasięgu, Operand < TFloat32 > wejście, Długi rozmiar okna, Długi krok, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację AudioSpectrogram.
statyczny spektrogram audio.Opcje
wielkość do kwadratu (wielkość logiczna do kwadratu)
Dane wyjściowe <TFloat32>
spektrogram ()
Reprezentacja 3D częstotliwości audio jako obraz.

Metody dziedziczone

Stałe

publiczny statyczny końcowy ciąg znaków OP_NAME

Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Wartość stała: „Spektrogram audio”

Metody publiczne

publiczne wyjście < TFloat32 > asOutput ()

Zwraca symboliczny uchwyt tensora.

Dane wejściowe operacji TensorFlow są wynikami innej operacji TensorFlow. Ta metoda służy do uzyskania symbolicznego uchwytu reprezentującego obliczenia danych wejściowych.

public static AudioSpectrogram create ( Zakres zakresu , Operand <TFloat32> wejście, Długi rozmiar okna, Długi krok, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację AudioSpectrogram.

Parametry
zakres aktualny zakres
wejście Pływająca reprezentacja danych audio.
rozmiar okna Jak szerokie jest okno wejściowe w próbkach. Aby uzyskać najwyższą wydajność, powinna to być potęga dwójki, ale akceptowane są inne wartości.
krok Jak daleko powinny znajdować się środki sąsiednich okien próbek.
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja AudioSpectrogram

public static AudioSpectrogram.Options wielkośćSquared (wielkość logicznaSquared)

Parametry
wielkość do kwadratu Czy zwrócić wielkość kwadratową, czy tylko wielkość. Użycie kwadratu wielkości pozwala uniknąć dodatkowych obliczeń.

publiczne wyjście < TFloat32 > spektrogram ()

Reprezentacja 3D częstotliwości audio jako obraz.