이 논문은 구조화된 신경망 모델을 효율적으로 훈련하기 위한 정규화된 적응형 모멘텀 이중 평균화(RAMDA) 알고리즘을 제안한다.
기존 정규화된 적응형 방법들의 경우 비평활 정규화 항과 대각 전처리기로 인해 하위 문제에 대한 폐쇄형 해가 존재하지 않는 문제가 있었다. 이를 해결하기 위해 RAMDA는 구현 가능한 근사 해 조건을 제안하고, 효율적인 하위 문제 해결기를 개발하였다.
변분 해석 및 비선형 최적화의 다양체 식별 이론을 활용하여, RAMDA의 반복 과정이 수렴점에서의 국소 최적 구조를 안정적으로 식별할 수 있음을 보였다. 이를 통해 RAMDA는 우수한 예측 성능과 함께 최적의 구조를 가진 모델을 출력할 수 있다.
컴퓨터 비전, 언어 모델링, 음성 인식 등 다양한 실험을 통해 RAMDA가 기존 최신 방법들을 일관적으로 능가함을 보였다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Zih-Syuan Hu... um arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14398.pdfTiefere Fragen