핵심 개념
Chebyshev 확률 불평등을 활용하여 딥러닝 모델의 클래스 프로토타입과 입력 특징 벡터 간 유사도 편차를 최소화함으로써 과적합을 효과적으로 감소시킬 수 있다.
초록
이 논문은 딥러닝 모델의 과적합 문제를 해결하기 위한 새로운 정규화 기법을 제안한다.
먼저 저자들은 딥러닝 모델을 특징 추출기와 분류기로 구성된 것으로 가정하고, 각 클래스에 대한 대표 특징 벡터인 클래스 프로토타입을 정의한다. 이후 Chebyshev 확률 불평등을 활용하여 입력 특징 벡터와 클래스 프로토타입 간 유사도 편차를 확률적으로 제한하는 Chebyshev Prototype Risk (CPR) 지표를 도출한다.
저자들은 CPR을 최소화하는 손실 함수를 제안하였다. 이 손실 함수는 클래스 프로토타입과 입력 특징 벡터 간 유사도를 높이고, 클래스 간 프로토타입 유사도를 낮추며, 클래스 내 특징 공분산을 감소시키는 다중 항으로 구성된다. 특히 클래스 내 특징 공분산 항은 O(JlogJ) 시간 복잡도로 효율적으로 계산할 수 있는 정렬 및 패딩 기반 알고리즘을 통해 구현되었다.
실험 결과, 제안된 알고리즘은 다양한 데이터셋과 모델 아키텍처에서 기존 정규화 기법들에 비해 우수한 일반화 성능을 보였다. 이는 CPR 최소화가 과적합 감소에 효과적임을 입증한다.
통계
각 클래스의 평균 특징 벡터인 클래스 프로토타입은 학습 과정에서 해당 클래스 예시들의 평균 특징 벡터로 수렴한다.
클래스 프로토타입에 대한 입력 특징 벡터의 유사도 편차를 최소화하는 것은 각 클래스 내 특징 분산을 최소화하는 것과 동치이다.
인용구
"Overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data."
"We utilize the class prototype, which is the class' mean feature vector, to derive Chebyshev probability bounds on the deviation of an example from it's class prototype and to design a new loss function that we empirically show to excel in performance and efficiency compared to previous algorithms."