核心概念
教師モデルの誤った予測を修正し、適切なデータを選択することで、学生モデルの性能を向上させる。
摘要
本論文は、知識蒸留の性能を向上させるための2つのアプローチを提案している。
- ラベル修正(Label Revision, LR)
- 教師モデルの予測が正しくない場合、教師の予測確率と正解ラベルを組み合わせて修正する。
- これにより、教師の誤った知識の転移を抑制しつつ、クラス間の相対的な関係性は維持できる。
- データ選択(Data Selection, DS)
- 教師モデルの予測が信頼できない可能性のある全データを使うのではなく、適切なデータのみを選択して蒸留する。
- 教師の誤った知識の影響を軽減することができる。
実験の結果、提案手法は既存の知識蒸留手法と比較して優れた性能を示し、他の手法と組み合わせても効果的であることが確認された。特に、教師モデルと学生モデルの構造が大きく異なる場合に有効であることが示された。
統計資料
教師モデルの予測確率の最大値(pt_max)と正解クラスの確率(pt_tar)の差が1未満になるように、修正係数βを設定する。
β = η / (pt_max - pt_tar + 1)、ここでηは0.8に設定する。
引述
"教師モデルの誤った予測は学生モデルの学習を誤らせる可能性がある。"
"教師モデルの全データを使うのではなく、適切なデータのみを選択して蒸留することで、誤った知識の影響を軽減できる。"