Tworzy wizualizację danych audio w czasie.
Spektrogramy to standardowy sposób przedstawiania informacji audio w postaci serii wycinków informacji o częstotliwości, po jednym wycinku na każde okno czasowe. Łącząc je w sekwencję, z biegiem czasu tworzą charakterystyczny odcisk palca.
Ta operacja oczekuje na wejściu danych audio, przechowywanych jako wartości zmiennoprzecinkowe w zakresie od -1 do 1, wraz z szerokością okna w próbkach i krokiem określającym, jak daleko należy przesunąć okno pomiędzy plasterkami. Na tej podstawie generuje trójwymiarowy wynik. Pierwszy wymiar dotyczy kanałów na wejściu, więc stereofoniczne wejście audio będzie miało na przykład dwa. Drugi wymiar to czas, z kolejnymi wycinkami częstotliwości. Trzeci wymiar ma wartość amplitudy dla każdej częstotliwości w tym przedziale czasu.
Oznacza to, że układ po przekonwertowaniu i zapisaniu jako obraz jest obracany o 90 stopni w kierunku zgodnym z ruchem wskazówek zegara w stosunku do typowego spektrogramu. Czas opada w dół osi Y, a częstotliwość maleje od lewej do prawej.
Każda wartość w wyniku reprezentuje pierwiastek kwadratowy z sumy części rzeczywistych i urojonych FFT w bieżącym oknie próbek. W ten sposób najniższy wymiar reprezentuje moc każdej częstotliwości w bieżącym oknie, a sąsiednie okna są łączone w następnym wymiarze.
Aby uzyskać bardziej intuicyjny i wizualny obraz działania tej operacji, możesz uruchomić tensorflow/examples/wav_to_spectrogram, aby wczytać plik audio i zapisać wynikowy spektrogram jako obraz PNG.
Klasy zagnieżdżone
klasa | Opcje audiospektrogramu | Opcjonalne atrybuty dla AudioSpectrogram |
Stałe
Strunowy | OP_NAME | Nazwa tej operacji znana silnikowi rdzenia TensorFlow |
Metody publiczne
Dane wyjściowe <TFloat32> | jako wyjście () Zwraca symboliczny uchwyt tensora. |
statyczny spektrogram audio | |
statyczny spektrogram audio.Opcje | wielkość do kwadratu (wielkość logiczna do kwadratu) |
Dane wyjściowe <TFloat32> | spektrogram () Reprezentacja 3D częstotliwości audio jako obraz. |
Metody dziedziczone
Stałe
publiczny statyczny końcowy ciąg znaków OP_NAME
Nazwa tej operacji znana silnikowi rdzenia TensorFlow
Metody publiczne
publiczne wyjście < TFloat32 > asOutput ()
Zwraca symboliczny uchwyt tensora.
Dane wejściowe operacji TensorFlow są wynikami innej operacji TensorFlow. Ta metoda służy do uzyskania symbolicznego uchwytu reprezentującego obliczenia danych wejściowych.
public static AudioSpectrogram create ( Zakres zakresu , Operand <TFloat32> wejście, Długi rozmiar okna, Długi krok, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację AudioSpectrogram.
Parametry
zakres | aktualny zakres |
---|---|
wejście | Pływająca reprezentacja danych audio. |
rozmiar okna | Jak szerokie jest okno wejściowe w próbkach. Aby uzyskać najwyższą wydajność, powinna to być potęga dwójki, ale akceptowane są inne wartości. |
krok | Jak daleko powinny znajdować się środki sąsiednich okien próbek. |
opcje | przenosi opcjonalne wartości atrybutów |
Zwroty
- nowa instancja AudioSpectrogram
public static AudioSpectrogram.Options wielkośćSquared (wielkość logicznaSquared)
Parametry
wielkość do kwadratu | Czy zwrócić wielkość kwadratową, czy tylko wielkość. Użycie kwadratu wielkości pozwala uniknąć dodatkowych obliczeń. |
---|