Core Concepts
대규모 기계 학습 문제에서 발생하는 ill-conditioned 문제를 해결하기 위해 스케치 기반의 선행 조건화된 확률적 경사 하강법 알고리즘을 제안한다. 이 알고리즘들은 빠른 수렴 속도와 최소한의 하이퍼파라미터 튜닝으로 우수한 성능을 보인다.
Abstract
이 논문은 PROMISE(Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates)라는 스케치 기반의 선행 조건화된 확률적 경사 하강법 알고리즘 제품군을 소개한다.
PROMISE 알고리즘은 다음과 같은 특징을 가진다:
SVRG, SAGA, Katyusha 등의 기존 확률적 최적화 알고리즘을 선행 조건화된 버전으로 제안한다.
다양한 선행 조건화 기법(SSN, NySSN, SASSN)을 제시하고, 이들이 ill-conditioned 문제에서 빠른 수렴 속도를 보임을 이론적으로 증명한다.
선행 조건화 기법의 품질을 분석하고, 문제 특성에 따른 최적의 선행 조건화 기법을 제시한다.
각 알고리즘에 대한 기본 하이퍼파라미터를 제공하고, 학습률 자동 계산 방법을 제안한다.
51개의 릿지 회귀 및 로지스틱 회귀 문제에 대한 실험을 통해 PROMISE 알고리즘의 우수성을 검증한다.
Stats
대규모 기계 학습 문제의 조건 수는 일반적으로 10^4 ~ 10^8 수준이다.
기존 확률적 경사 하강법은 ill-conditioned 문제에서 매우 느린 수렴 속도를 보인다.
PROMISE 알고리즘은 기본 하이퍼파라미터 설정만으로도 기존 최적화 알고리즘을 압도하는 성능을 보인다.
Quotes
"ill-conditioned problems are ubiquitous in large-scale machine learning: as a dataset grows to include more and more features correlated with the labels, the condition number increases."
"traditional stochastic gradient methods converge slowly on these ill-conditioned problems, even with careful hyperparameter tuning."