แนวคิดหลัก
MoEモデルは、バニラモデルに比べて転送能力が劣っており、その問題を解決するために転送能力蒸留を導入することが有効である。
บทคัดย่อ
最近、Mixture of Experts (MoE) Transformersがモデル容量と計算効率の利点から注目されています。しかし、研究によると、MoE Transformersは多くの下流タスクでバニラTransformersよりも性能が低いことが示されており、MoEモデルの実用的な価値を大幅に低下させています。この問題を説明するために、我々はモデルの事前トレーニングパフォーマンスと転送能力がその下流タスクパフォーマンスの共同決定要因であると提案しています。バニラモデルは弱いパフォーマンスですが、強い転送能力を持っており、一方でMoEモデルは大きな容量と強い事前トレーニングパフォーマンスを持っていますが、弱い転送能力しか示さない。したがって、MoEモデルの下流タスクでの性能低下は主にその限られた転送能力に起因すると考えています。
我々はこの問題に対処するために、バニラモデルの転送能力を活用してMoEモデルの性能向上を図るTransfer Capability Distillation(TCD)という概念を導入します。この方法では、バニラモデルは教師として使用され、MoEモデルの転送可能性を向上させます。これにより、MoEモデルの全体的な改善が可能です。
また、「GLUE」基準で行った実験結果では、TCDを行ったMoEモデルの下流パフォーマンスが大幅に向上しました。これはTCD概念を支持し、MoEモデルの改善に成功したことを示しています。
สถิติ
MoE BERT w/ TCD プリトレイニングエポック: 5.0, Pre-Training Performance: -2.33650, GLUE: 79.51
Vanilla BERT プリトレイニングエポック: 10.0, Pre-Training Performance: -1.54597, GLUE: 83.81
MoE BERT プリトレイニングエポック: 12.0, Pre-Training Performance: -1.29679, GLUE: 83.72
คำพูด
"Vanilla transformers are effective transfer capability teachers."
"Transfer capability distillation enhances the transfer capability of MoE models."
"A teacher model distills a student model superior in pre-training and downstream performance."