Производит визуализацию аудиоданных с течением времени.
Спектрограммы — это стандартный способ представления аудиоинформации в виде серии срезов частотной информации, по одному срезу для каждого временного окна. Соединяя их вместе в последовательность, они со временем образуют характерный отпечаток звука.
Эта операция предполагает получение аудиоданных в качестве входных данных, хранящихся в виде чисел с плавающей запятой в диапазоне от -1 до 1, вместе с шириной окна в сэмплах и шагом, определяющим, насколько далеко перемещать окно между срезами. На основе этого он генерирует трехмерный результат. Первое измерение предназначено для каналов на входе, поэтому, например, стереофонический аудиовход будет иметь два. Второе измерение — это время с последовательными частотными срезами. Третье измерение имеет значение амплитуды для каждой частоты в течение этого интервала времени.
Это означает, что макет при преобразовании и сохранении в виде изображения поворачивается на 90 градусов по часовой стрелке относительно типичной спектрограммы. Время спускается по оси Y, а частота уменьшается слева направо.
Каждое значение результата представляет собой квадратный корень из суммы действительной и мнимой частей БПФ в текущем окне выборок. Таким образом, наименьшее измерение представляет мощность каждой частоты в текущем окне, а соседние окна объединяются в следующем измерении.
Чтобы получить более интуитивное и наглядное представление о том, что делает эта операция, вы можете запустить tensorflow/examples/wav_to_spectrogram, чтобы прочитать аудиофайл и сохранить полученную спектрограмму как изображение PNG.
Вложенные классы
сорт | АудиоСпектрограмма.Параметры | Дополнительные атрибуты для AudioSpectrogram |
Константы
Нить | OP_NAME | Название этой операции, известное основному движку TensorFlow. |
Публичные методы
Вывод <TFloat32> | какВывод () Возвращает символический дескриптор тензора. |
статическая аудиоспектрограмма | create ( Область области, Операнд <TFloat32> , Длинный размер окна, Длинный шаг, Параметры... параметры) Фабричный метод для создания класса, обертывающего новую операцию AudioSpectrogram. |
статический AudioSpectrogram.Options | величинаSquared (логическая величинаSquared) |
Вывод <TFloat32> | спектрограмма () Трехмерное представление звуковых частот в виде изображения. |
Унаследованные методы
Константы
общедоступная статическая финальная строка OP_NAME
Название этой операции, известное основному движку TensorFlow.
Публичные методы
публичный вывод <TFloat32> asOutput ()
Возвращает символический дескриптор тензора.
Входные данные для операций TensorFlow являются выходными данными другой операции TensorFlow. Этот метод используется для получения символического дескриптора, который представляет собой вычисление входных данных.
общедоступная статическая AudioSpectrogram create (область действия , ввод операнда <TFloat32> , длинный размер окна, длинный шаг, параметры... параметры)
Фабричный метод для создания класса, обертывающего новую операцию AudioSpectrogram.
Параметры
объем | текущий объем |
---|---|
вход | Плавающее представление аудиоданных. |
размер окна | Насколько широко окно ввода в сэмплах. Для достижения максимальной эффективности это значение должно быть степенью двойки, но допускаются и другие значения. |
шагать | На каком расстоянии друг от друга должны находиться центры соседних окон для отбора проб. |
параметры | содержит значения необязательных атрибутов |
Возврат
- новый экземпляр AudioSpectrogram
общедоступный статический AudioSpectrogram.Options valueSquared (логическое значение MagneticSquared)
Параметры
Величина в квадрате | Возвращать ли квадрат величины или только величину. Использование квадрата величины позволяет избежать дополнительных вычислений. |
---|
публичный вывод <TFloat32> спектрограмма ()
Трехмерное представление звуковых частот в виде изображения.