Optimizador que implementa el algoritmo Adam.
La optimización de Adam es un método de descenso de gradiente estocástico que se basa en la estimación adaptativa de momentos de primer y segundo orden.
Según Kingma et al., 2014, el método es "computacionalmente eficiente, tiene pocos requisitos de memoria, es invariante al cambio de escala diagonal de gradientes y es muy adecuado para problemas que son grandes en términos de datos/parámetros".
@ver Kingma et al., 2014, Adam: un método para la optimización estocástica .
Constantes
flotar | BETA_ONE_DEFAULT | |
flotar | BETA_TWO_DEFAULT | |
flotar | EPSILON_DEFAULT | |
Cadena | PRIMER MOMENTO | |
flotar | APRENDIZAJE_RATE_DEFAULT | |
Cadena | SEGUNDO_MOMENTO |
Constantes heredadas
Constructores Públicos
Métodos públicos
estático <T extiende TType > Op | createAdamMinimize (alcance del alcance , pérdida del operando <T>, tasa de aprendizaje flotante, betaUno flotante, betaTwo flotante, épsilon flotante, Opciones... opciones) Crea la Operación que minimiza la pérdida. |
Cadena | getOptimizerName () Obtenga el nombre del optimizador. |
Cadena | Encadenar () |
Métodos heredados
Constantes
flotación final estática pública BETA_ONE_DEFAULT
flotación final estática pública BETA_TWO_DEFAULT
flotación final estática pública EPSILON_DEFAULT
Cadena final estática pública FIRST_MOMENT
flotación final estática pública LEARNING_RATE_DEFAULT
Cadena final estática pública SECOND_MOMENT
Constructores Públicos
Adán público (gráfico gráfico )
Crea un optimizador Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|
Adam público (gráfico gráfico , tasa de aprendizaje flotante)
Crea un optimizador Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
tasa de aprendizaje | la tasa de aprendizaje |
Adam público (gráfico gráfico , tasa de aprendizaje flotante, beta uno flotante, beta dos flotante, épsilon flotante)
Crea un optimizador Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
tasa de aprendizaje | la tasa de aprendizaje |
betauno | La tasa de caída exponencial para las estimaciones del primer momento. El valor predeterminado es 0,9. |
betados | La tasa de caída exponencial para las estimaciones del segundo momento. El valor predeterminado es 0,999. |
épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula justo antes de la Sección 2.1), no el épsilon en el Algoritmo 1 del artículo. El valor predeterminado es 1e-8. |
Adam público (gráfico gráfico , nombre de cadena, tasa de aprendizaje flotante)
Crea un optimizador Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
nombre | el nombre del Optimizador, por defecto es "Adam" |
tasa de aprendizaje | la tasa de aprendizaje |
Adam público ( gráfico , nombre de cadena, tasa de aprendizaje flotante, betaUno flotante, betaTwo flotante, épsilon flotante)
Crea un optimizador Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
nombre | el nombre del Optimizador, por defecto es "Adam" |
tasa de aprendizaje | la tasa de aprendizaje |
betauno | La tasa de caída exponencial para las estimaciones del primer momento. El valor predeterminado es 0,9. |
betados | La tasa de caída exponencial para las estimaciones del segundo momento. El valor predeterminado es 0,999. |
épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula justo antes de la Sección 2.1), no el épsilon en el Algoritmo 1 del artículo. El valor predeterminado es 1e-8. |
Métodos públicos
Op pública estática createAdamMinimize ( alcance , pérdida de operando <T>, tasa de aprendizaje flotante, betaOne flotante, betaTwo flotante, épsilon flotante, Opciones... opciones)
Crea la Operación que minimiza la pérdida.
Parámetros
alcance | el alcance de TensorFlow |
---|---|
pérdida | la pérdida para minimizar |
tasa de aprendizaje | la tasa de aprendizaje |
betauno | La tasa de caída exponencial para las estimaciones del primer momento. |
betados | La tasa de caída exponencial para las estimaciones del segundo momento. |
épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula justo antes de la Sección 2.1), no el épsilon en el Algoritmo 1 del artículo. |
opciones | Atributos opcionales del optimizador |
Devoluciones
- la Operación que minimiza la pérdida
Lanza
Argumento de excepción ilegal | si el alcance no representa un gráfico |
---|
cadena pública getOptimizerName ()
Obtenga el nombre del optimizador.
Devoluciones
- El nombre del optimizador.