AdaDelta

clase pública AdaDelta

Optimizador que implementa el algoritmo Adadelta.

La optimización de Adadelta es un método de descenso de gradiente estocástico que se basa en la tasa de aprendizaje adaptativo por dimensión para abordar dos inconvenientes:

  • La continua disminución de las tasas de aprendizaje a lo largo de la formación.
  • la necesidad de una tasa de aprendizaje global seleccionada manualmente

Adadelta es una extensión más sólida de Adagrad que adapta las tasas de aprendizaje en función de una ventana móvil de actualizaciones de gradientes, en lugar de acumular todos los gradientes anteriores. De esta manera, Adadelta continúa aprendiendo incluso cuando se han realizado muchas actualizaciones. En comparación con Adagrad, en la versión original de Adadelta no es necesario establecer una tasa de aprendizaje inicial. En esta versión, se puede establecer la tasa de aprendizaje inicial, como en la mayoría de los otros optimizadores.

Según la sección 4.3 ("Tasas de aprendizaje efectivas"), cerca del final del tamaño de los pasos de capacitación convergen a 1, lo que efectivamente es una tasa de aprendizaje alta que causaría divergencia. Esto ocurre solo cerca del final del entrenamiento, ya que los gradientes y los tamaños de paso son pequeños, y la constante épsilon en el numerador y denominador domina los gradientes anteriores y las actualizaciones de parámetros que hacen converger la tasa de aprendizaje a 1.

Según la sección 4.4 ("Datos de voz"), donde se entrenó una gran red neuronal con 4 capas ocultas en un corpus de datos en inglés de EE. UU., se utilizó ADADELTA con 100 réplicas de red. El épsilon utilizado es 1e-6 con rho=0,95, que convergió más rápido que ADAGRAD, mediante la siguiente construcción: new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);

Constantes

Constantes heredadas

org.tensorflow.framework.optimizers.Optimizer
Cadena VARIABLE_V2

Constructores Públicos

AdaDelta (gráfico gráfico )
AdaDelta (gráfico gráfico , tasa de aprendizaje flotante)
Crea un optimizador AdaDelta
AdaDelta ( gráfico , tasa de aprendizaje flotante, rho flotante, épsilon flotante)
Crea un optimizador AdaDelta
AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante)
Crea un optimizador AdaDelta
AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante, rho flotante, épsilon flotante)
Crea un optimizador AdaDelta

Métodos públicos

Cadena
getOptimizerName ()
Obtenga el nombre del optimizador.
Cadena

Métodos heredados

org.tensorflow.framework.optimizers.Optimizer
Op.
applyGradients (Lista< GradAndVar <? extiende TType >> gradsAndVars, nombre de cadena)
Aplica gradientes a las variables.
<T extiende TType > Lista< GradAndVar <?>>
ComputeGradients (pérdida de operando <?>)
Calcula los gradientes basándose en un operando de pérdida.
cadena estática
createName ( Salida <? extiende TType > variable, String slotName)
Crea un nombre combinando un nombre de variable y un nombre de ranura
cadena abstracta
getOptimizerName ()
Obtenga el nombre del optimizador.
<T extiende TType > Opcional< Variable <T>>
getSlot ( Salida <T> var, String slotName)
Obtiene la ranura asociada con la variable especificada y el nombre de la ranura.
operaciones finales
obtenerTF ()
Obtiene la instancia de operaciones del optimizador.
Op.
minimizar ( operando <?> pérdida)
Minimiza la pérdida actualizando las variables.
Op.
minimizar ( operando <?> pérdida, nombre de cadena)
Minimiza la pérdida actualizando las variables.
booleano
es igual (Objeto arg0)
Clase final<?>
obtenerclase ()
En t
código hash ()
vacío final
notificar ()
vacío final
notificar a todos ()
Cadena
Encadenar ()
vacío final
esperar (arg0 largo, int arg1)
vacío final
espera (largo arg0)
vacío final
esperar ()

Constantes

ACUMULADOR de cadena final estático público

Valor constante: "acumular"

Cadena final estática pública ACCUMULATOR_UPDATE

Valor constante: "accum_update"

flotación final estática pública EPSILON_DEFAULT

Valor constante: 1.0E-7

flotación final estática pública LEARNING_RATE_DEFAULT

Valor constante: 0,001

flotador final estático público RHO_DEFAULT

Valor constante: 0,95

Constructores Públicos

AdaDelta pública (gráfico gráfico )

público AdaDelta (gráfico gráfico , tasa de aprendizaje flotante)

Crea un optimizador AdaDelta

Parámetros
grafico el gráfico de TensorFlow
tasa de aprendizaje la tasa de aprendizaje

public AdaDelta (gráfico gráfico , tasa de aprendizaje flotante, rho flotante, épsilon flotante)

Crea un optimizador AdaDelta

Parámetros
grafico el gráfico de TensorFlow
tasa de aprendizaje la tasa de aprendizaje
rho El factor de decadencia
épsilon Un épsilon constante utilizado para acondicionar mejor la actualización de graduación.

public AdaDelta (gráfico gráfico , nombre de cadena, tasa de aprendizaje flotante)

Crea un optimizador AdaDelta

Parámetros
grafico el gráfico de TensorFlow
nombre el nombre de este Optimizador (el valor predeterminado es 'Adadelta')
tasa de aprendizaje la tasa de aprendizaje

public AdaDelta ( gráfico , nombre de cadena, tasa de aprendizaje flotante, rho flotante, épsilon flotante)

Crea un optimizador AdaDelta

Parámetros
grafico el gráfico de TensorFlow
nombre el nombre de este Optimizador (el valor predeterminado es 'Adadelta')
tasa de aprendizaje la tasa de aprendizaje
rho El factor de decadencia
épsilon Un épsilon constante utilizado para acondicionar mejor la actualización de graduación.

Métodos públicos

cadena pública getOptimizerName ()

Obtenga el nombre del optimizador.

Devoluciones
  • El nombre del optimizador.

cadena pública a cadena ()