아다그라드

public class AdaGrad<Model: Differentiable>: Optimizer
where
  Model.TangentVector: VectorProtocol & PointwiseMultiplicative
    & ElementaryFunctions & KeyPathIterable,
  Model.TangentVector.VectorSpaceScalar == Float

AdaGrad 최적화 프로그램.

AdaGrad(적응형 그라데이션) 최적화 알고리즘을 구현합니다. AdaGrad에는 훈련 중에 매개변수가 업데이트되는 빈도에 따라 조정되는 매개변수별 학습률이 있습니다. 더 많은 업데이트를 받는 매개변수는 학습률이 더 낮습니다.

AdaGrad는 모든 모델 매개변수의 학습률을 그라디언트 노름의 누계 제곱합의 제곱근에 반비례하여 조정함으로써 개별적으로 조정합니다.

참고 자료: "온라인 학습 및 확률론적 최적화를 위한 적응형 하위 그라데이션 방법" (Duchi et al, 2011)

  • 선언

    public typealias Model = Model
  • 학습률입니다.

    선언

    public var learningRate: Float
  • 수치 안정성을 향상시키기 위해 분모에 작은 스칼라가 추가되었습니다.

    선언

    public var epsilon: Float
  • 그라디언트 노름의 제곱의 누적 합계입니다.

    선언

    public var accumulator: Model.TangentVector
  • model 에 대한 인스턴스를 만듭니다.

    선언

    public init(
      for model: __shared Model,
      learningRate: Float = 1e-3,
      initialAccumulatorValue: Float = 0.1,
      epsilon: Float = 1e-8
    )

    매개변수

    learningRate

    학습률입니다. 기본값은 1e-3 입니다.

    initialAccumulatorValue

    그라디언트 노름의 누적 제곱합에 대한 시작 값입니다. 기본값은 0.1 입니다.

    epsilon

    수치 안정성을 향상시키기 위해 분모에 작은 스칼라가 추가되었습니다. 기본값은 1e-8 입니다.

  • 선언

    public func update(_ model: inout Model, along direction: Model.TangentVector)
  • 선언

    public required init(copying other: AdaGrad, to device: Device)