Ta strona została przetłumaczona przez Cloud Translation API.

AudioSpectrogram

publiczne zajęcia końcowe AudioSpectrogram

Tworzy wizualizację danych audio w czasie.

Spektrogramy to standardowy sposób przedstawiania informacji audio w postaci serii wycinków informacji o częstotliwości, po jednym wycinku na każde okno czasowe. Łącząc je w sekwencję, z biegiem czasu tworzą charakterystyczny odcisk palca.

Ta operacja oczekuje na wejściu danych audio, przechowywanych jako wartości zmiennoprzecinkowe w zakresie od -1 do 1, wraz z szerokością okna w próbkach i krokiem określającym, jak daleko należy przesunąć okno pomiędzy plasterkami. Na tej podstawie generuje trójwymiarowy wynik. Pierwszy wymiar dotyczy kanałów na wejściu, więc stereofoniczne wejście audio będzie miało na przykład dwa. Drugi wymiar to czas, z kolejnymi wycinkami częstotliwości. Trzeci wymiar ma wartość amplitudy dla każdej częstotliwości w tym przedziale czasu.

Oznacza to, że układ po przekonwertowaniu i zapisaniu jako obraz jest obracany o 90 stopni w kierunku zgodnym z ruchem wskazówek zegara w stosunku do typowego spektrogramu. Czas opada w dół osi Y, a częstotliwość maleje od lewej do prawej.

Każda wartość w wyniku reprezentuje pierwiastek kwadratowy z sumy części rzeczywistych i urojonych FFT w bieżącym oknie próbek. W ten sposób najniższy wymiar reprezentuje moc każdej częstotliwości w bieżącym oknie, a sąsiednie okna są łączone w następnym wymiarze.

Aby uzyskać bardziej intuicyjny i wizualny obraz działania tej operacji, możesz uruchomić tensorflow/examples/wav_to_spectrogram, aby wczytać plik audio i zapisać wynikowy spektrogram jako obraz PNG.

Klasy zagnieżdżone

klasa Opcje audiospektrogramu Opcjonalne atrybuty dla AudioSpectrogram

Stałe

Strunowy OP_NAME Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Metody publiczne

Dane wyjściowe <TFloat32>	jako wyjście () Zwraca symboliczny uchwyt tensora.
statyczny spektrogram audio	utwórz ( Zakres zasięgu, Operand < TFloat32 > wejście, Długi rozmiar okna, Długi krok, Opcje... opcje) Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację AudioSpectrogram.
statyczny spektrogram audio.Opcje	wielkość do kwadratu (wielkość logiczna do kwadratu)
Dane wyjściowe <TFloat32>	spektrogram () Reprezentacja 3D częstotliwości audio jako obraz.

Metody dziedziczone

Z klasy org.tensorflow.op.RawOp

końcowa wartość logiczna	równa się (obiekt obiektu)
końcowy wew	hashCode ()
Operacja	op () Zwróć tę jednostkę obliczeniową jako pojedynczą `Operation` .
ostatni ciąg	doString ()

Z klasy java.lang.Object

wartość logiczna	równa się (Obiekt arg0)
ostatnia klasa<?>	pobierzKlasę ()
wew	hashCode ()
ostateczna pustka	powiadomić ()
ostateczna pustka	powiadom wszystkich ()
Strunowy	doString ()
ostateczna pustka	czekaj (długi arg0, int arg1)
ostateczna pustka	czekaj (długi arg0)
ostateczna pustka	Czekać ()

Z interfejsu org.tensorflow.op.Op

abstrakcyjne środowisko wykonania	środowisko () Zwróć środowisko wykonawcze, w którym utworzono tę operację.
abstrakcyjna operacja	op () Zwróć tę jednostkę obliczeniową jako pojedynczą `Operation` .

Z interfejsu org.tensorflow.Operand

streszczenie Dane wyjściowe <TFloat32>	jako wyjście () Zwraca symboliczny uchwyt tensora.
streszczenie TFloat32	asTensor () Zwraca tensor tego operandu.
abstrakcyjny kształt	kształt () Zwraca (prawdopodobnie częściowo znany) kształt tensora, do którego odnosi się dane `Output` tego operandu.
Klasa abstrakcyjna <TFloat32>	typ () Zwraca typ tensora tego operandu

Z interfejsu org.tensorflow.ndarray.Shaped

streszczenie wew	ranga ()
abstrakcyjny kształt	kształt ()
abstrakcyjne, długie	rozmiar () Oblicza i zwraca całkowity rozmiar tego kontenera w liczbie wartości.

Stałe

publiczny statyczny końcowy ciąg znaków OP_NAME

Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Wartość stała: „Spektrogram audio”

Metody publiczne

publiczne wyjście < TFloat32 > asOutput ()

Zwraca symboliczny uchwyt tensora.

Dane wejściowe operacji TensorFlow są wynikami innej operacji TensorFlow. Ta metoda służy do uzyskania symbolicznego uchwytu reprezentującego obliczenia danych wejściowych.

public static AudioSpectrogram create ( Zakres zakresu , Operand <TFloat32> wejście, Długi rozmiar okna, Długi krok, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację AudioSpectrogram.

Parametry

zakres	aktualny zakres
wejście	Pływająca reprezentacja danych audio.
rozmiar okna	Jak szerokie jest okno wejściowe w próbkach. Aby uzyskać najwyższą wydajność, powinna to być potęga dwójki, ale akceptowane są inne wartości.
krok	Jak daleko powinny znajdować się środki sąsiednich okien próbek.
opcje	przenosi opcjonalne wartości atrybutów

Zwroty

nowa instancja AudioSpectrogram

public static AudioSpectrogram.Options wielkośćSquared (wielkość logicznaSquared)

Parametry

wielkość do kwadratu	Czy zwrócić wielkość kwadratową, czy tylko wielkość. Użycie kwadratu wielkości pozwala uniknąć dodatkowych obliczeń.

publiczne wyjście < TFloat32 > spektrogram ()

Reprezentacja 3D częstotliwości audio jako obraz.

AudioSpectrogram Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Klasy zagnieżdżone

Stałe

Metody publiczne

Metody dziedziczone

Stałe

publiczny statyczny końcowy ciąg znaków OP_NAME

Metody publiczne

publiczne wyjście < TFloat32 > asOutput ()

public static AudioSpectrogram create ( Zakres zakresu , Operand <TFloat32> wejście, Długi rozmiar okna, Długi krok, Opcje... opcje)

Parametry

Zwroty

public static AudioSpectrogram.Options wielkośćSquared (wielkość logicznaSquared)

Parametry

publiczne wyjście < TFloat32 > spektrogram ()

AudioSpectrogram