이 논문은 딥러닝 네트워크에서 널리 사용되는 L2 비용 함수 최소화를 위한 경사 하강법 흐름에 대해 두 가지 수정된 버전을 소개한다. 하나는 과대 매개변수화된 설정을 위한 것이고, 다른 하나는 과소 매개변수화된 설정을 위한 것이다. 두 경우 모두 자연스러운 불변 기하학적 의미를 가지고 있다.
과대 매개변수화된 경우, 순위 조건이 만족되면 수정된 경사 하강 흐름의 모든 궤도가 L2 비용을 균일한 지수 수렴률로 전역 최소값으로 구동한다는 것을 증명한다. 이를 통해 전역 L2 비용 최소값에 대한 임의의 근접도에 대한 사전 정지 시간을 얻을 수 있다.
과소 매개변수화된 상황에서는 수정된 경사 하강 흐름의 유사한 버전이 자연스러운 제약 경사 하강 흐름으로 매핑된다는 것을 보여준다.
마지막으로 과대 매개변수화와 과소 매개변수화 상황을 구분하는 경계 경우에서 두 수정된 경사 하강 흐름이 일치한다는 것을 보인다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor