核心概念
일반 최적화 방법(미러 하강법, 가장 가파른 하강법)과 적대적 견고성 최적화 방법(적대적 훈련)은 각각 해당 기하학적 마진을 최대화하는 분류기로 수렴하며, 이에 대한 수렴 속도를 크게 개선하였다.
摘要
이 논문은 선형 분류 문제에서 일반 최적화 방법과 적대적 견고성 최적화 방법의 암묵적 편향(implicit bias)을 분석하고 있다.
주요 내용은 다음과 같다:
-
미러 하강법과 가장 가파른 하강법 등 일반 최적화 방법이 각각 대응되는 기하학적 마진을 최대화하는 분류기로 수렴한다는 것을 보였다. 이를 위해 이들 최적화 방법을 온라인 학습 알고리즘으로 풀이할 수 있는 게임 프레임워크를 제안하였다.
-
게임 프레임워크에서 온라인 학습 알고리즘의 후회 한계(regret bound)를 활용하여, 미러 하강법과 가장 가파른 하강법의 마진 최대화 수렴 속도를 크게 개선하였다. 예를 들어 미러 하강법의 경우 기존 O(log n/T^(1/4)) 수렴 속도를 O(log n log T/T^(q-1))로 개선하였다.
-
적대적 훈련(adversarial training) 방법에 대해서도 유사한 게임 프레임워크를 제안하고, 이를 통해 기존 O(poly(n)/sqrt(T)) 수렴 속도를 O(log n/T)로 개선하였다.
-
이러한 수렴 속도 개선은 최적화 방법의 암묵적 편향을 이해하고 제어하는 데 중요한 의미를 가진다.
統計資料
최대 마진 분류기의 마진은 min_{p∈∆n} p^T Aw / ||w|| 로 정의된다.
미러 하강법의 경우 마진 최대화 수렴 속도는 O(log n log T / (q-1)T)이다.
가장 가파른 하강법의 경우 마진 최대화 수렴 속도는 O(log n / T)이다.
적대적 훈련(ℓs-AT)의 경우 마진 최대화 수렴 속도는 O(log n / T)이다.
引述
"First-order optimization methods tend to inherently favor certain solutions over others when minimiz-ing an underdetermined training objective that has multiple global optima."
"Recent research has revealed that in separable binary classification tasks gradient-descent-based methods exhibit an implicit bias for the ℓ2-maximal margin classifier."
"Similarly, generic optimization methods, such as mirror descent and steepest descent, have been shown to converge to maximal margin classifiers defined by alternative geometries."