Core Concepts
과적합 모델에서도 일반화 성능이 우수한 모델이 존재하며, 이는 모델의 "부드러움"으로 특징지을 수 있다. 부드러운 모델은 경험적 손실과 기대 손실의 차이가 작으며, 이는 모델의 율함수(rate function)로 정량화할 수 있다.
Abstract
이 논문은 과적합 모델에서도 일반화 성능이 우수한 모델이 존재한다는 점을 보여준다. 이를 위해 분포 의존적인 PAC-Chernoff 경계를 도입하였다. 이 경계는 과적합 모델에서도 완벽하게 타이트하며, 모델의 일반화 성능을 율함수로 특징지을 수 있다.
율함수는 모델의 "부드러움"을 정량화하는 지표로 사용될 수 있다. 부드러운 모델은 경험적 손실과 기대 손실의 차이가 작으며, 따라서 일반화 성능이 우수하다. 이러한 통찰을 바탕으로, 저자들은 L2 정규화, 초기화로부터의 거리, 입력 기울기 정규화 등 다양한 현대 학습 기법들이 부드러운 보간자를 찾도록 유도한다는 것을 보여준다.
이 연구는 분포 의존적 경계가 과적합 모델의 일반화 성능을 이해하는 데 유용한 도구가 될 수 있음을 시사한다.
Stats
과적합 모델에서도 일반화 성능이 우수한 모델이 존재한다.
모델의 일반화 성능은 율함수로 특징지을 수 있다.
율함수가 높은 (부드러운) 모델이 일반화 성능이 우수하다.
L2 정규화, 초기화로부터의 거리, 입력 기울기 정규화 등의 기법은 부드러운 보간자를 찾도록 유도한다.
Quotes
"Bounds that solely depend on the training data are provably vacuous for over-parameterized model classes and are unable to explain generalization."
"PAC-Chernoff bounds are perfectly tight for (over-parameterized) interpolators."
"Interpolators with a larger rate function Iθ(·) or, equivalently, smoother interpolators, are the ones that better generalize."