Esta página se ha traducido con Cloud Translation API.

AudioSpectrogram

Clase final pública AudioEspectrograma

Produce una visualización de datos de audio a lo largo del tiempo.

Los espectrogramas son una forma estándar de representar información de audio como una serie de porciones de información de frecuencia, una por cada ventana de tiempo. Al unirlos en una secuencia, forman una huella distintiva del sonido a lo largo del tiempo.

Esta operación espera recibir datos de audio como entrada, almacenados como flotantes en el rango de -1 a 1, junto con un ancho de ventana en muestras y un paso que especifica hasta dónde mover la ventana entre cortes. A partir de esto genera una salida tridimensional. La primera dimensión es para los canales en la entrada, por lo que una entrada de audio estéreo tendría dos aquí, por ejemplo. La segunda dimensión es el tiempo, con sucesivos cortes de frecuencia. La tercera dimensión tiene un valor de amplitud para cada frecuencia durante ese intervalo de tiempo.

Esto significa que el diseño, cuando se convierte y se guarda como imagen, se gira 90 grados en el sentido de las agujas del reloj con respecto a un espectrograma típico. El tiempo desciende por el eje Y y la frecuencia disminuye de izquierda a derecha.

Cada valor del resultado representa la raíz cuadrada de la suma de las partes real e imaginaria de una FFT en la ventana actual de muestras. De esta manera, la dimensión más baja representa la potencia de cada frecuencia en la ventana actual y las ventanas adyacentes se concatenan en la siguiente dimensión.

Para obtener una visión más intuitiva y visual de lo que hace esta operación, puede ejecutar tensorflow/examples/wav_to_spectrogram para leer un archivo de audio y guardar el espectrograma resultante como una imagen PNG.

Clases anidadas

clase AudioEspectrograma.Opciones Atributos opcionales para AudioSpectrogram

Constantes

Cadena OP_NOMBRE El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Métodos públicos

Salida <TFloat32>	como salida () Devuelve el identificador simbólico del tensor.
Espectrograma de audio estático	crear (alcance alcance , entrada Operando <TFloat32> , tamaño de ventana largo, paso largo, opciones... opciones) Método de fábrica para crear una clase que envuelve una nueva operación AudioSpectrogram.
Opciones de espectrograma de audio estático	magnitud al cuadrado (magnitud booleana al cuadrado)
Salida <TFloat32>	espectrograma () Representación 3D de las frecuencias de audio como imagen.

Métodos heredados

De la clase org.tensorflow.op.RawOp

booleano final	es igual (Objeto obj)
entero final	código hash ()
Operación	operación () Devuelve esta unidad de cálculo como una única `Operation` .
cadena final	Encadenar ()

De la clase java.lang.Object

booleano	es igual (Objeto arg0)
Clase final<?>	obtenerclase ()
En t	código hash ()
vacío final	notificar ()
vacío final	notificar a todos ()
Cadena	Encadenar ()
vacío final	esperar (arg0 largo, int arg1)
vacío final	espera (largo arg0)
vacío final	esperar ()

Desde la interfaz org.tensorflow.op.Op

entorno de ejecución abstracto	entorno () Devuelve el entorno de ejecución en el que se creó esta operación.
operación abstracta	operación () Devuelve esta unidad de cálculo como una única `Operation` .

Desde la interfaz org.tensorflow.Operand

Salida abstracta <TFloat32>	como salida () Devuelve el identificador simbólico del tensor.
resumen TFloat32	como Tensor () Devuelve el tensor en este operando.
forma abstracta	forma () Devuelve la forma (posiblemente parcialmente conocida) del tensor al que hace referencia la `Output` de este operando.
Clase abstracta< TFloat32 >	tipo () Devuelve el tipo de tensor de este operando.

Desde la interfaz org.tensorflow.ndarray.Shaped

resumen entero	rango ()
forma abstracta	forma ()
abstracto largo	tamaño () Calcula y devuelve el tamaño total de este contenedor, en número de valores.

Constantes

Cadena final estática pública OP_NAME

El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Valor constante: "Espectrograma de audio"

Métodos públicos

Salida pública <TFloat32> asOutput ()

Devuelve el identificador simbólico del tensor.

Las entradas a las operaciones de TensorFlow son salidas de otra operación de TensorFlow. Este método se utiliza para obtener un identificador simbólico que representa el cálculo de la entrada.

Creación de espectrograma de audio estático público (alcance de alcance , entrada de operando <TFloat32> , tamaño de ventana largo, zancada larga, opciones... opciones)

Método de fábrica para crear una clase que envuelve una nueva operación AudioSpectrogram.

Parámetros

alcance	alcance actual
aporte	Representación flotante de datos de audio.
tamaño de ventana	Qué tan ancha es la ventana de entrada en muestras. Para obtener la máxima eficiencia, esto debería ser una potencia de dos, pero se aceptan otros valores.
paso	Qué tan separados deben estar los centros de las ventanas de muestra adyacentes.
opciones	lleva valores de atributos opcionales

Devoluciones

una nueva instancia de AudioSpectrogram

AudioSpectrogram.Options estático público magnitudSquared (magnitud booleanaSquared)

Parámetros

magnitudAl cuadrado	Ya sea para devolver la magnitud al cuadrado o solo la magnitud. El uso de la magnitud al cuadrado puede evitar cálculos adicionales.

Salida pública <TFloat32> espectrograma ()

Representación 3D de las frecuencias de audio como imagen.

AudioSpectrogram Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Clases anidadas

Constantes

Métodos públicos

Métodos heredados

Constantes

Cadena final estática pública OP_NAME

Métodos públicos

Salida pública <TFloat32> asOutput ()

Creación de espectrograma de audio estático público (alcance de alcance , entrada de operando <TFloat32> , tamaño de ventana largo, zancada larga, opciones... opciones)

Parámetros

Devoluciones

AudioSpectrogram.Options estático público magnitudSquared (magnitud booleanaSquared)

Parámetros

Salida pública <TFloat32> espectrograma ()

AudioSpectrogram