핵심 개념
정규화된 적응형 모멘텀 이중 평균화(RAMDA) 알고리즘은 구조화된 신경망 모델을 효율적으로 훈련할 수 있으며, 기존 방법들에 비해 우수한 예측 성능과 구조화된 희소성을 동시에 달성할 수 있다.
초록
이 논문은 구조화된 신경망 모델을 효율적으로 훈련하기 위한 정규화된 적응형 모멘텀 이중 평균화(RAMDA) 알고리즘을 제안한다.
기존 정규화된 적응형 방법들의 경우 비평활 정규화 항과 대각 전처리기로 인해 하위 문제에 대한 폐쇄형 해가 존재하지 않는 문제가 있었다. 이를 해결하기 위해 RAMDA는 구현 가능한 근사 해 조건을 제안하고, 효율적인 하위 문제 해결기를 개발하였다.
변분 해석 및 비선형 최적화의 다양체 식별 이론을 활용하여, RAMDA의 반복 과정이 수렴점에서의 국소 최적 구조를 안정적으로 식별할 수 있음을 보였다. 이를 통해 RAMDA는 우수한 예측 성능과 함께 최적의 구조를 가진 모델을 출력할 수 있다.
컴퓨터 비전, 언어 모델링, 음성 인식 등 다양한 실험을 통해 RAMDA가 기존 최신 방법들을 일관적으로 능가함을 보였다.
통계
신경망 모델의 매개변수 수가 수십억 개에 달하여 저장 및 추론 비용이 높아지는 문제가 있다.
정규화를 통해 모델의 구조를 유도하면 공간 및 예측 비용을 줄일 수 있다.
기존 정규화된 적응형 방법들은 수렴점에서의 구조를 보장하지 못하는 한계가 있다.
인용구
"정규화된 적응형 방법들의 하위 문제는 비평활 정규화 항과 대각 전처리기로 인해 일반적으로 폐쇄형 해가 존재하지 않는다."
"RAMDA는 수렴점에서의 국소 최적 구조를 안정적으로 식별할 수 있어, 우수한 예측 성능과 함께 최적의 구조를 가진 모델을 출력할 수 있다."