핵심 개념
ReLU 활성화 함수처럼 미분 불가능한 지점을 갖는 손실 함수에 대한 기울기 기반 최적화 방법의 단점을 분석하고, 미분 가능 함수에 대한 기존 연구 결과를 미분 불가능 설정에 직접 적용하는 것의 위험성을 강조합니다.
초록
GD로는 부족하다: 미분 불가능성이 신경망 훈련에 영향을 미치는 세 가지 방식
본 연구 논문은 딥러닝 최적화 이론의 중요한 차이점을 분석합니다. 특히, 미분 불가능한 함수에 적용되는 기울기 방법(NGDM)과 미분 가능한 함수에 적용되는 기존의 경사 하강법(GD)의 차이점을 비교 분석합니다. 이를 통해 현재 딥러닝 최적화 이론의 한계점을 명확히 드러냅니다.
ReLU 네트워크의 수렴 분석: NGDM이 GD보다 느리게 수렴함을 보여줍니다. 즉, L-smoothness를 가정하여 도출된 많은 수렴 속도 주장은 NGDM 속성에 제한적으로 적용될 수 있습니다.
LASSO 문제에 대한 해: NDGM이 L1 페널티가 적용된 선형 모델과 같은 간단한 경우에도 LASSO 문제에 대한 sparse solution을 생성하지 못함을 입증합니다. 이는 기존의 통념과 상반되는 결과입니다. 또한, 더 큰 LASSO 페널티를 사용할 때 더 큰 L1 norm을 갖는 해를 생성하는 것과 같이 NDGM이 예상치 못한 결과를 초래할 수 있음을 보여줍니다. 중요한 것은 RMSProp 및 모멘텀을 사용한 NDGM과 같은 변형이 vanilla NDGM과 다르게 동작한다는 것을 증명하여, 이러한 알고리즘이 미분 불가능한 설정에서 유사한 해로 수렴한다는 일반적인 가정에 의문을 제기합니다.
안정성의 경계: 모든 볼록 미분 가능 신경망에 대한 경사 하강법에 대해서도 안정성의 경계 추측이 성립하지 않음을 입증합니다. 또한, 지역 최소값 주변의 subquadratic behavior가 안정성 경계 현상의 원인이라는 Ma et al. (2022)의 주장에 대한 반례를 제공합니다.