핵심 개념
Chebyshev不等式に基づいて導出したChebyshev Prototype Riskを最小化することで、特徴表現の内クラス共分散を減らし、クラス間の特徴分離を高めることで、オーバーフィッティングを軽減する。
초록
本論文では、深層ニューラルネットワーク(DNN)の特徴抽出部と分類器の最適化を通じて、オーバーフィッティングを軽減する手法を提案している。
まず、DNNの特徴抽出部の出力である特徴ベクトルと、各クラスの平均特徴ベクトル(クラスプロトタイプ)との関係に着目する。Chebyshev不等式を用いて、ある入力サンプルの特徴ベクトルがクラスプロトタイプから大きく離れる確率を上界で表す「Chebyshev Prototype Risk (CPR)」を定義する。
次に、CPRを最小化するための損失関数を提案する。この損失関数は以下の3つの項から構成される:
- クラスプロトタイプと入力サンプルの特徴ベクトルの距離を最小化する項
- 入力サンプルの特徴ベクトルの内クラス共分散を最小化する項
- クラスプロトタイプ間の角度類似度を最小化する項
提案手法では、特に2番目の内クラス共分散の最小化を効率的に行うアルゴリズムを開発している。これにより、大規模なネットワークにも適用可能な正則化手法を実現している。
実験結果から、提案手法がCIFAR100やSTL10などのデータセットにおいて、既存手法と比べてオーバーフィッティングを効果的に抑制し、高い汎化性能を示すことが確認された。
통계
各クラスの特徴ベクトルの平均(クラスプロトタイプ)は、クラス内の特徴ベクトルの平均値に収束する。
クラスプロトタイプの平均特徴ベクトルを最小化することは、各クラスの特徴ベクトルの分散を最小化することと等価である。
인용구
"Overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data."
"We utilize the class prototype, which is the class' mean feature vector, to derive Chebyshev probability bounds on the deviation of an example from it's class prototype and to design a new loss function that we empirically show to excel in performance and efficiency compared to previous algorithms."