Temel Kavramlar
データ拡張の強度を高めることで、教師モデルの注意メカニズムの多様性が高まり、学生モデルの一般化性能が向上する。一方で、学生モデルと教師モデルの忠実度は低下する。この低忠実度現象は問題ではなく、むしろ学生モデルの一般化を促進する重要な特性である。
Özet
本研究は、ナレッジ・ディスティレーション(KD)における学生モデルの一般化性能と教師モデルとの忠実度の関係を明らかにする。
主な発見は以下の通り:
- データ拡張の強度を高めると、教師モデルの注意メカニズムの多様性が高まり、学生モデルの一般化性能が向上する。
- 学生モデルの一般化性能が高い場合、教師モデルとの忠実度が低下する。この低忠実度現象は問題ではなく、むしろ学生モデルの一般化を促進する重要な特性である。
- 学生モデルと教師モデルの論理値の一致を最適化しても、忠実度の向上には繋がらず、むしろ一般化性能の向上に寄与する。
これらの発見は、従来の知見に挑戦し、KDにおける学生モデルの学習動態をより深く理解するための新しい視点を提供する。
İstatistikler
データ拡張の強度が高いほど、教師モデル間の注意マップの重複度(IoU)が低下する。
データ拡張の強度が高いほど、学生モデルと教師モデルの忠実度(Top-1 Agreement)が低下する。
データ拡張の強度が高いほど、学生モデルと教師モデルの相互情報量(Mutual Information)が低下する。