Esta página se ha traducido con Cloud Translation API.

AdaDelta

clase pública AdaDelta

Optimizador que implementa el algoritmo Adadelta.

La optimización de Adadelta es un método de descenso de gradiente estocástico que se basa en la tasa de aprendizaje adaptativo por dimensión para abordar dos inconvenientes:

La continua disminución de las tasas de aprendizaje a lo largo de la formación.
la necesidad de una tasa de aprendizaje global seleccionada manualmente

Adadelta es una extensión más sólida de Adagrad que adapta las tasas de aprendizaje en función de una ventana móvil de actualizaciones de gradientes, en lugar de acumular todos los gradientes anteriores. De esta manera, Adadelta continúa aprendiendo incluso cuando se han realizado muchas actualizaciones. En comparación con Adagrad, en la versión original de Adadelta no es necesario establecer una tasa de aprendizaje inicial. En esta versión, se puede establecer la tasa de aprendizaje inicial, como en la mayoría de los otros optimizadores.

Según la sección 4.3 ("Tasas de aprendizaje efectivas"), cerca del final del tamaño de los pasos de capacitación convergen a 1, lo que efectivamente es una tasa de aprendizaje alta que causaría divergencia. Esto ocurre solo cerca del final del entrenamiento, ya que los gradientes y los tamaños de paso son pequeños, y la constante épsilon en el numerador y denominador domina los gradientes anteriores y las actualizaciones de parámetros que hacen converger la tasa de aprendizaje a 1.

Según la sección 4.4 ("Datos de voz"), donde se entrenó una gran red neuronal con 4 capas ocultas en un corpus de datos en inglés de EE. UU., se utilizó ADADELTA con 100 réplicas de red. El épsilon utilizado es 1e-6 con rho=0,95, que convergió más rápido que ADAGRAD, mediante la siguiente construcción: new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);

Ver también

Zeiler, M., 2012 ADADELTA: un método de tasa de aprendizaje adaptativo

Constantes

Cadena	ACUMULADOR
Cadena	ACUMULADOR_ACTUALIZACIÓN
flotar	EPSILON_DEFAULT
flotar	APRENDIZAJE_RATE_DEFAULT
flotar	RHO_DEFAULT

Constantes heredadas

De la clase org.tensorflow.framework.optimizers.Optimizer

Cadena VARIABLE_V2

Constructores Públicos

	AdaDelta (gráfico gráfico )
	AdaDelta (gráfico gráfico , tasa de aprendizaje flotante) Crea un optimizador AdaDelta
	AdaDelta ( gráfico , tasa de aprendizaje flotante, rho flotante, épsilon flotante) Crea un optimizador AdaDelta
	AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante) Crea un optimizador AdaDelta
	AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante, rho flotante, épsilon flotante) Crea un optimizador AdaDelta

Métodos públicos

Cadena	getOptimizerName () Obtenga el nombre del optimizador.
Cadena	Encadenar ()

Métodos heredados

De la clase org.tensorflow.framework.optimizers.Optimizer

Op.	applyGradients (Lista< GradAndVar <? extiende TType >> gradsAndVars, nombre de cadena) Aplica gradientes a las variables.
<T extiende TType > Lista< GradAndVar <?>>	ComputeGradients (pérdida de operando <?>) Calcula los gradientes basándose en un operando de pérdida.
cadena estática	createName ( Salida <? extiende TType > variable, String slotName) Crea un nombre combinando un nombre de variable y un nombre de ranura
cadena abstracta	getOptimizerName () Obtenga el nombre del optimizador.
<T extiende TType > Opcional< Variable <T>>	getSlot ( Salida <T> var, String slotName) Obtiene la ranura asociada con la variable especificada y el nombre de la ranura.
operaciones finales	obtenerTF () Obtiene la instancia de operaciones del optimizador.
Op.	minimizar ( operando <?> pérdida) Minimiza la pérdida actualizando las variables.
Op.	minimizar ( operando <?> pérdida, nombre de cadena) Minimiza la pérdida actualizando las variables.

De la clase java.lang.Object

booleano	es igual (Objeto arg0)
Clase final<?>	obtenerclase ()
En t	código hash ()
vacío final	notificar ()
vacío final	notificar a todos ()
Cadena	Encadenar ()
vacío final	esperar (arg0 largo, int arg1)
vacío final	espera (largo arg0)
vacío final	esperar ()

Constantes

ACUMULADOR de cadena final estático público

Valor constante: "acumular"

Cadena final estática pública ACCUMULATOR_UPDATE

Valor constante: "accum_update"

flotación final estática pública EPSILON_DEFAULT

Valor constante: 1.0E-7

flotación final estática pública LEARNING_RATE_DEFAULT

Valor constante: 0,001

flotador final estático público RHO_DEFAULT

Valor constante: 0,95

Constructores Públicos

AdaDelta pública (gráfico gráfico )

público AdaDelta (gráfico gráfico , tasa de aprendizaje flotante)

Crea un optimizador AdaDelta

Parámetros

grafico	el gráfico de TensorFlow
tasa de aprendizaje	la tasa de aprendizaje

public AdaDelta (gráfico gráfico , tasa de aprendizaje flotante, rho flotante, épsilon flotante)

Crea un optimizador AdaDelta

Parámetros

grafico	el gráfico de TensorFlow
tasa de aprendizaje	la tasa de aprendizaje
rho	El factor de decadencia
épsilon	Un épsilon constante utilizado para acondicionar mejor la actualización de graduación.

public AdaDelta (gráfico gráfico , nombre de cadena, tasa de aprendizaje flotante)

Crea un optimizador AdaDelta

Parámetros

grafico	el gráfico de TensorFlow
nombre	el nombre de este Optimizador (el valor predeterminado es 'Adadelta')
tasa de aprendizaje	la tasa de aprendizaje

public AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante, rho flotante, épsilon flotante)

Crea un optimizador AdaDelta

Parámetros

grafico	el gráfico de TensorFlow
nombre	el nombre de este Optimizador (el valor predeterminado es 'Adadelta')
tasa de aprendizaje	la tasa de aprendizaje
rho	El factor de decadencia
épsilon	Un épsilon constante utilizado para acondicionar mejor la actualización de graduación.

AdaDelta

Ver también

Constantes

Constantes heredadas

Constructores Públicos

Métodos públicos

Métodos heredados

Constantes

ACUMULADOR de cadena final estático público

Cadena final estática pública ACCUMULATOR_UPDATE

flotación final estática pública EPSILON_DEFAULT

flotación final estática pública LEARNING_RATE_DEFAULT

flotador final estático público RHO_DEFAULT

Constructores Públicos

AdaDelta pública (gráfico gráfico )

público AdaDelta (gráfico gráfico , tasa de aprendizaje flotante)

Parámetros

public AdaDelta (gráfico gráfico , tasa de aprendizaje flotante, rho flotante, épsilon flotante)

Parámetros

public AdaDelta (gráfico gráfico , nombre de cadena, tasa de aprendizaje flotante)

Parámetros

public AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante, rho flotante, épsilon flotante)

Parámetros

Métodos públicos

cadena pública getOptimizerName ()

Devoluciones

cadena pública a cadena ()