Core Concepts
TTMとWTTMは、KDよりも優れた性能を提供し、モデル圧縮の目標を達成します。
Abstract
この論文では、温度スケーリングを生徒側から取り除いたKDの変種であるTTMについて体系的に研究しています。さらに、サンプル適応型のWTTMを提案し、他の多くの特徴ベースの蒸留手法よりも計算コストが少ないにもかかわらず、最先端の性能を実証しています。CIFAR-100およびImageNetという2つの画像分類データセットでTTMとWTTMの優越性を示す包括的な実験結果が提示されています。
Stats
Published as a conference paper at ICLR 2024
TTM leads to trained students with better generalization than KD.
WTTM achieves state-of-the-art accuracy performance.
Quotes
"Extensive experiment results demonstrate that thanks to this inherent regularization, TTM leads to trained students with better generalization than the original KD."
"Although WTTM is simple, it is effective, improves upon TTM, and achieves state-of-the-art accuracy performance."