XGrad은 가중치 예측을 통해 널리 사용되는 경사 기반 최적화기의 수렴 속도와 일반화 성능을 향상시킨다.
순환 로그 어닐링은 스토캐스틱 경사 하강법에서 학습률을 더 공격적으로 재시작하는 새로운 로그 기반 방법이다. 이는 온라인 볼록 최적화 프레임워크에서 더 탐욕적인 알고리즘을 사용할 수 있게 해준다.
SAM의 핵심 구성 요소를 분석하여 배치별 확률적 경사 노이즈 성분이 SAM의 일반화 성능 향상에 핵심적인 역할을 한다는 것을 발견하였다. 이를 바탕으로 F-SAM을 제안하여 전체 경사 성분의 부정적인 영향을 완화하고 확률적 경사 노이즈 성분을 활용함으로써 SAM의 일반화 성능을 더욱 향상시켰다.
제곱근이 없는 새로운 적응형 방법이 SGD와의 일반화 갭을 줄이고 변환기에서의 성능을 유지하는 것을 발견했습니다.