AudioSpectrogram

публичный финальный класс AudioSpectrogram

Производит визуализацию аудиоданных с течением времени.

Спектрограммы — это стандартный способ представления аудиоинформации в виде серии срезов частотной информации, по одному срезу для каждого временного окна. Соединяя их вместе в последовательность, они со временем образуют характерный отпечаток звука.

Эта операция предполагает получение аудиоданных в качестве входных данных, хранящихся в виде чисел с плавающей запятой в диапазоне от -1 до 1, вместе с шириной окна в сэмплах и шагом, определяющим, насколько далеко перемещать окно между срезами. На основе этого он генерирует трехмерный результат. Первое измерение предназначено для каналов на входе, поэтому, например, стереофонический аудиовход будет иметь два. Второе измерение — это время с последовательными частотными срезами. Третье измерение имеет значение амплитуды для каждой частоты в течение этого интервала времени.

Это означает, что макет при преобразовании и сохранении в виде изображения поворачивается на 90 градусов по часовой стрелке относительно типичной спектрограммы. Время спускается по оси Y, а частота уменьшается слева направо.

Каждое значение результата представляет собой квадратный корень из суммы действительной и мнимой частей БПФ в текущем окне выборок. Таким образом, наименьшее измерение представляет мощность каждой частоты в текущем окне, а соседние окна объединяются в следующем измерении.

Чтобы получить более интуитивное и наглядное представление о том, что делает эта операция, вы можете запустить tensorflow/examples/wav_to_spectrogram, чтобы прочитать аудиофайл и сохранить полученную спектрограмму как изображение PNG.

Вложенные классы

сорт АудиоСпектрограмма.Параметры Дополнительные атрибуты для AudioSpectrogram

Константы

Нить OP_NAME Название этой операции, известное основному движку TensorFlow.

Публичные методы

Вывод <TFloat32>
какВывод ()
Возвращает символический дескриптор тензора.
статическая аудиоспектрограмма
create ( Область области, Операнд <TFloat32> , Длинный размер окна, Длинный шаг, Параметры... параметры)
Фабричный метод для создания класса, обертывающего новую операцию AudioSpectrogram.
статический AudioSpectrogram.Options
величинаSquared (логическая величинаSquared)
Вывод <TFloat32>
спектрограмма ()
Трехмерное представление звуковых частот в виде изображения.

Унаследованные методы

org.tensorflow.op.RawOp
последнее логическое значение
равно (Объект obj)
окончательный интервал
Операция
оп ()
Верните эту единицу вычислений как одну Operation .
последняя строка
логическое значение
равно (Объект arg0)
последний класс<?>
получитьКласс ()
интервал
хэш-код ()
окончательная пустота
поставить в известность ()
окончательная пустота
уведомитьВсе ()
Нить
нанизывать ()
окончательная пустота
подождать (длинный arg0, int arg1)
окончательная пустота
подождите (длинный arg0)
окончательная пустота
ждать ()
org.tensorflow.op.Op
абстрактная среда выполнения
окружение ()
Верните среду выполнения, в которой была создана эта операция.
абстрактная операция
оп ()
Верните эту единицу вычислений как одну Operation .
org.tensorflow.Operand
абстрактный вывод <TFloat32>
какВывод ()
Возвращает символический дескриптор тензора.
абстрактный TFloat32
асТензор ()
Возвращает тензор в этом операнде.
абстрактная форма
форма ()
Возвращает (возможно, частично известную) форму тензора, на который ссылается Output этого операнда.
абстрактный класс <TFloat32>
тип ()
Возвращает тензорный тип этого операнда
org.tensorflow.ndarray.Shaped
абстрактный int
абстрактная форма
абстрактный длинный
размер ()
Вычисляет и возвращает общий размер этого контейнера в количестве значений.

Константы

общедоступная статическая финальная строка OP_NAME

Название этой операции, известное основному движку TensorFlow.

Постоянное значение: «Аудиоспектрограмма».

Публичные методы

публичный вывод <TFloat32> asOutput ()

Возвращает символический дескриптор тензора.

Входные данные для операций TensorFlow являются выходными данными другой операции TensorFlow. Этот метод используется для получения символического дескриптора, который представляет собой вычисление входных данных.

общедоступная статическая AudioSpectrogram create (область действия , ввод операнда <TFloat32> , длинный размер окна, длинный шаг, параметры... параметры)

Фабричный метод для создания класса, обертывающего новую операцию AudioSpectrogram.

Параметры
объем текущий объем
вход Плавающее представление аудиоданных.
размер окна Насколько широко окно ввода в сэмплах. Для достижения максимальной эффективности это значение должно быть степенью двойки, но допускаются и другие значения.
шагать На каком расстоянии друг от друга должны находиться центры соседних окон для отбора проб.
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр AudioSpectrogram

общедоступный статический AudioSpectrogram.Options valueSquared (логическое значение MagneticSquared)

Параметры
Величина в квадрате Возвращать ли квадрат величины или только величину. Использование квадрата величины позволяет избежать дополнительных вычислений.

публичный вывод <TFloat32> спектрограмма ()

Трехмерное представление звуковых частот в виде изображения.