核心概念
本研究は、教師モデルの多粒度の事前知識を効率的に学生モデルに転移することで、高解像度画像復元の性能を大幅に向上させる。
摘要
本研究は、高解像度(HR)画像を低解像度(LR)画像から復元する超解像(SR)タスクにおいて、知識蒸留(KD)を用いた効率的なモデル圧縮手法を提案している。従来のKD手法は、教師モデルの特徴マップを直接比較したり、単純な代数演算で標準化するなど、教師モデルと学生モデルの表現能力の差異を考慮していなかった。
本研究では、MiPKDと呼ばれる新しいKDフレームワークを提案する。MiPKDは、特徴マップレベルと ネットワークブロックレベルの2つの粒度で、教師モデルの事前知識を学生モデルに効果的に転移する。
特徴マップレベルでは、教師と学生の特徴マップを統一された潜在空間に変換し、ランダムにマスクして融合する。これにより、両者の表現能力の差異を緩和する。
ネットワークブロックレベルでは、教師と学生のブロックを動的に切り替えながら伝播させ、教師の能力を学生に継承させる。
実験結果から、提案手法MiPKDが従来のKD手法を大幅に上回る性能を示すことが分かった。特に、深さ圧縮と幅圧縮の両方を行う複合圧縮設定において、大きな性能向上が確認された。
統計資料
教師モデルのパラメータ数は43.09M、FLOPSは3293.35G、FPSは3.2。
学生モデル1のパラメータ数は2.70M(43.09Mの25.3倍圧縮)、FLOPSは207.28G(15.9倍圧縮)、FPSは33.958。
学生モデル2のパラメータ数は1.52M(28.3倍圧縮)、FLOPSは129.97G(25.3倍圧縮)、FPSは53.3。
引述
"Knowledge distillation (KD) is a promising yet challenging model compression technique that transfers rich learning representations from a well-performing but cumbersome teacher model to a compact student model."
"Previous methods for image super-resolution (SR) mostly compare the feature maps directly or after standardizing the dimensions with basic algebraic operations (e.g. average, dot-product). However, the intrinsic semantic differences among feature maps are overlooked, which are caused by the disparate expressive capacity between the networks."