Core Concepts
教師モデルの各空間成分を学生モデル全体に蒸留することで、学生モデルの表現力を高める。
Abstract
本論文は、知識蒸留の新しい手法を提案している。従来の手法では、教師モデルの特徴マップと学生モデルの特徴マップを1対1で対応付けて蒸留していたが、モデルの構造の違いにより、同じ空間位置の特徴には意味的な差異がある場合がある。そこで本手法では、教師モデルの各空間成分を学生モデル全体に蒸留する手法を提案する。具体的には、教師モデルの特徴と学生モデルの特徴の相関を学習する「目標指向型トランスフォーマー」を導入し、教師の各空間成分を学生全体に蒸留する。さらに、計算量の問題を解決するため、特徴マップを階層的に処理する手法も提案している。
実験では、画像分類タスクのImageNetと、セマンティックセグメンテーションタスクのPascal VOCとCOCOStuff10kで提案手法の有効性を示している。ImageNetでは、従来手法を大きく上回る精度を達成し、セグメンテーションタスクでも大幅な性能向上を実現している。
Stats
教師モデルの特徴マップは、学生モデルの特徴マップに比べて受容野が大きく、より豊かな意味情報を含んでいる。
従来の1対1の空間対応による蒸留では、このような意味的な差異を捉えきれず、最適な蒸留ができない。
Quotes
教師モデルの各空間成分を学生モデル全体に蒸留することで、学生モデルの表現力を高めることができる。
階層的な蒸留手法を導入することで、大規模な特徴マップに対しても効率的に蒸留を行うことができる。