מושגי ליבה
直接的な知識移行を可能にする新しいパスウェイを提案する。
סטטיסטיקה
WIDは先生から直接的に知識を移行する新しい方法です。
WIDは追加のアラインメント損失を必要とせず、生徒モデルに重みを受け継ぎます。
ציטוטים
"Knowledge Distillation (KD) is a predominant approach for BERT compression."
"WID does not require any additional alignment loss and trains a compact student by inheriting the weights."