核心概念
データ非依存型知識蒸留(DFKD)タスクにおいて、生成ベースまたはサンプリングベースの手法で得られる代替データと元のデータ分布の間の深刻な分布シフトが、学生モデルの性能ボトルネックとなっている。本研究では、因果推論の新しい視点を導入し、KDCI(Knowledge Distillation Causal Intervention)フレームワークを提案することで、これらの有害な分布シフトの影響を和らげる。
摘要
本論文は、データ非依存型知識蒸留(DFKD)タスクにおける分布シフトの問題に取り組む新しい視点を提案している。
まず、DFKD タスクの変数間の因果関係を表す因果グラフを設計し、分布シフトを有害な交絡因子として特定する。次に、KDCI フレームワークを提案し、因果介入を用いて学生モデルの偏った予測を補償することで、分布シフトの影響を和らげる。
具体的には、KDCI は以下の2つのステージから構成される:
- 交絡因子辞書の構築: 代替データの特徴表現をクラスタリングし、交絡因子の事前知識を抽出する。
- 偏りを補償した知識蒸留: 交絡因子辞書を用いて学生の偏った予測を補償し、教師の知識を蒸留する。
実験では、6つの代表的なDFKD手法にKDCIを組み合わせ、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNetデータセットで評価した。結果、KDCIは一貫して既存手法の性能を向上させ、最大15.54%の精度向上を達成した。さらに、定性的な分析からも、KDCIが分布シフトの問題を効果的に緩和できることが示された。
統計資料
合成データのFID(Fréchet Inception Distance)は、DAFL: 176.24、DeepInv: 265.97、DFND: 357.45と、元のデータと大きな差がある。
合成データの各クラスの割合は、元のデータと大きく異なる。
引述
"データ非依存型知識蒸留(DFKD)は、プライバシーやその他の理由で元の訓練データが利用できない場合に、小さなモデルを高性能に訓練するための有望なタスクである。"
"既存のDFKD手法は、合成または抽出したデータを利用することで、元のデータへの依存を避けているが、代替データと元のデータの間の深刻な分布シフトは長年見過ごされてきた問題である。"