public class AdaGrad<Model: Differentiable>: Optimizer
where
Model.TangentVector: VectorProtocol & PointwiseMultiplicative
& ElementaryFunctions & KeyPathIterable,
Model.TangentVector.VectorSpaceScalar == Float
AdaGrad 최적화 프로그램.
AdaGrad(적응형 그라데이션) 최적화 알고리즘을 구현합니다. AdaGrad에는 훈련 중에 매개변수가 업데이트되는 빈도에 따라 조정되는 매개변수별 학습률이 있습니다. 더 많은 업데이트를 받는 매개변수는 학습률이 더 낮습니다.
AdaGrad는 모든 모델 매개변수의 학습률을 그라디언트 노름의 누계 제곱합의 제곱근에 반비례하여 조정함으로써 개별적으로 조정합니다.
참고 자료: "온라인 학습 및 확률론적 최적화를 위한 적응형 하위 그라데이션 방법" (Duchi et al, 2011)
선언
public typealias Model = Model
학습률입니다.
선언
public var learningRate: Float
수치 안정성을 향상시키기 위해 분모에 작은 스칼라가 추가되었습니다.
선언
public var epsilon: Float
그라디언트 노름의 제곱의 누적 합계입니다.
선언
public var accumulator: Model.TangentVector
model
에 대한 인스턴스를 만듭니다.선언
public init( for model: __shared Model, learningRate: Float = 1e-3, initialAccumulatorValue: Float = 0.1, epsilon: Float = 1e-8 )
매개변수
learningRate
학습률입니다. 기본값은
1e-3
입니다.initialAccumulatorValue
그라디언트 노름의 누적 제곱합에 대한 시작 값입니다. 기본값은
0.1
입니다.epsilon
수치 안정성을 향상시키기 위해 분모에 작은 스칼라가 추가되었습니다. 기본값은
1e-8
입니다.선언
public required init(copying other: AdaGrad, to device: Device)