이 논문은 과대매개변수화된 최적화 문제에서 확률적 경사 하강법(SGD)이 수렴할 수 있는 전역 최소값을 특성화한다.
먼저 결정론적 경사 하강법(GD)의 경우, 전역 최소값 x의 선형 안정성을 나타내는 지수 μ(x)를 도입한다. μ(x*) < 0이면 x는 GD에 의해 수렴될 수 있고, μ(x) > 0이면 수렴될 수 없음을 엄밀히 증명한다.
다음으로 SGD의 경우, 전역 최소값 x의 동적 안정성을 나타내는 새로운 지수 λ(x)를 도입한다. λ(x*) < 0이면 x는 SGD에 의해 수렴될 수 있고, λ(x) > 0이면 수렴될 수 없음을 엄밀히 증명한다. 이때 x*가 "regular"한 조건을 만족해야 한다.
이러한 결과는 과대매개변수화된 학습에서 최적화 알고리즘의 수렴 특성을 이해하는 데 중요한 통찰을 제공한다. 특히 전역 최소값의 동적 안정성이 일반화 성능에 중요한 역할을 할 수 있음을 시사한다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Dennis Chemn... о arxiv.org 09-19-2024
https://arxiv.org/pdf/2407.20209.pdfГлибші Запити