Core Concepts
대규모 기계 학습 문제에서 하이퍼파라미터 튜닝 비용이 점점 더 높아지고 있다. 이에 따라 온더플라이 자체 조정이 가능한 알고리즘에 대한 필요성이 대두되고 있다. 본 연구에서는 최적으로 튜닝된 최적화 알고리즘과 성능을 폴리로그 요인 내에서 일치시킬 수 있는 "하이퍼파라미터 자동 조정" 알고리즘을 제안한다.
Abstract
이 논문은 하이퍼파라미터 튜닝이 필요 없는 최적화 알고리즘에 대해 다룬다.
먼저 경계가 있는 도메인에서는 기존 알고리즘들(DoG, DoWG)이 최적으로 튜닝된 SGD와 폴리로그 요인 내에서 성능을 일치시킬 수 있음을 보였다.
그러나 경계가 없는 도메인에서는 이러한 하이퍼파라미터 자동 조정이 불가능함을 증명했다. 다만 노이즈 분포가 충분히 잘 동작하는 경우에는 DoG와 DoWG 알고리즘이 여전히 하이퍼파라미터 자동 조정이 가능함을 보였다.
비볼록 최적화 문제의 경우, 기대값 수렴률을 달성하는 것은 불가능하지만, 고확률 수렴률은 폴리로그 요인 내에서 달성할 수 있는 변형된 SGD 알고리즘을 제안했다.
Stats
볼록 최적화 문제에서 최적으로 튜닝된 SGD의 수렴률은 O(DL^2/T + σD/√T)
비볼록 최적화 문제에서 최적으로 튜닝된 SGD의 수렴률은 O(√(L(f(x0)-f*)/T) + L(f(x0)-f*)/T)
Quotes
"대규모 기계 학습 문제에서 하이퍼파라미터 튜닝 비용이 점점 더 높아지고 있다."
"본 연구에서는 최적으로 튜닝된 최적화 알고리즘과 성능을 폴리로그 요인 내에서 일치시킬 수 있는 "하이퍼파라미터 자동 조정" 알고리즘을 제안한다."