핵심 개념
기하학적으로 적응된 경사 하강법을 통해 과대 매개변수화된 딥러닝 네트워크에서 L2 비용 함수가 균일한 지수 수렴률로 전역 최소값에 도달함을 보여준다.
초록
이 논문은 딥러닝 네트워크에서 널리 사용되는 L2 비용 함수 최소화를 위한 경사 하강법 흐름에 대해 두 가지 수정된 버전을 소개한다. 하나는 과대 매개변수화된 설정을 위한 것이고, 다른 하나는 과소 매개변수화된 설정을 위한 것이다. 두 경우 모두 자연스러운 불변 기하학적 의미를 가지고 있다.
과대 매개변수화된 경우, 순위 조건이 만족되면 수정된 경사 하강 흐름의 모든 궤도가 L2 비용을 균일한 지수 수렴률로 전역 최소값으로 구동한다는 것을 증명한다. 이를 통해 전역 L2 비용 최소값에 대한 임의의 근접도에 대한 사전 정지 시간을 얻을 수 있다.
과소 매개변수화된 상황에서는 수정된 경사 하강 흐름의 유사한 버전이 자연스러운 제약 경사 하강 흐름으로 매핑된다는 것을 보여준다.
마지막으로 과대 매개변수화와 과소 매개변수화 상황을 구분하는 경계 경우에서 두 수정된 경사 하강 흐름이 일치한다는 것을 보인다.
통계
과대 매개변수화된 경우, D[θ]DT[θ]가 QN 계수를 가지는 경우 모든 궤도가 균일한 지수 수렴률로 L2 비용을 전역 최소값으로 구동한다.
과소 매개변수화된 경우, D[θ]DT[θ]가 K 계수를 가지는 경우 경사 하강 흐름이 제약된 동역학 시스템으로 매핑된다.
인용구
"모든 궤도가 L2 비용을 균일한 지수 수렴률로 전역 최소값으로 구동한다."
"수정된 경사 하강 흐름이 자연스러운 제약 경사 하강 흐름으로 매핑된다."