核心概念
신경망의 스펙트럼 편향을 커널의 스펙트럼 변경을 통해 제어하여 학습 속도를 크게 향상시킬 수 있다.
要約
이 논문은 신경망의 스펙트럼 편향을 제어하는 방법을 제안한다. 신경망의 학습 속도는 신경망 커널(NTK)의 고유값 분포에 크게 의존한다. 일반적으로 NTK의 고유값은 급격히 감소하여 높은 주파수 성분의 학습이 어려워진다.
저자들은 Modified Spectrum Kernel(MSK)이라는 새로운 커널 변환 기법을 제안한다. MSK를 통해 임의의 스펙트럼을 가진 커널을 구축할 수 있다. 이를 활용하여 전처리된 경사하강법(PGD)을 제안한다. PGD는 NTK의 스펙트럼을 변경하여 학습 속도를 크게 향상시킬 수 있다.
구체적으로 PGD는 NTK의 상위 k개 고유값과 고유벡터를 이용해 전처리 행렬 S를 구성한다. 이를 통해 NTK의 스펙트럼을 변경하여 상위 k개 고유벡터의 학습 속도를 크게 향상시킬 수 있다. 저자들은 PGD의 수렴 성능을 이론적으로 분석하고, 실험을 통해 제안 기법의 효과를 검증하였다.
統計
신경망의 학습 속도는 NTK의 고유값 분포에 크게 의존한다.
NTK의 고유값은 일반적으로 급격히 감소하여 높은 주파수 성분의 학습이 어려워진다.
제안한 PGD 기법은 NTK의 상위 k개 고유값과 고유벡터를 이용해 전처리 행렬 S를 구성한다.
PGD를 통해 상위 k개 고유벡터의 학습 속도를 크게 향상시킬 수 있다.
引用
"Wide neural networks are biased towards learning certain functions, influencing both the rate of convergence of gradient descent (GD) and the functions that are reachable with GD in finite training time."
"Specifically, it has been observed both theoretically and empirically that for a wide neural network, learning an eigen-direction of the NTK with GD requires a number of iterations that is inversely proportional to the corresponding eigenvalue."