本論文は、大規模言語モデル(LLM)の推論を高速化する新しい手法を提案している。従来の動的計算手法は、入力に応じて異なる計算コストを割り当てるため、推論時の加速効果が安定しないという課題があった。また、連続するレイヤーをスキップすることで、モデルの表現が大きく変化し、性能が劣化するという問題もあった。
提案手法の「統一的なレイヤースキップ戦略」は、目標の高速化率に基づいてスキップするレイヤー数を決定し、中間レイヤーを均等にスキップする。これにより、入力に依存せずに安定した高速化を実現し、モデルの表現変化も最小限に抑えることができる。さらに、バッチ処理やKVキャッシュなどの一般的な高速化手法とも親和性が高い。
実験では、機械翻訳とテキストサマリゼーションのタスクで評価を行い、提案手法が既存手法に比べて高い性能と実際の処理速度の向上を示している。特に、目標の高速化率を達成しつつ、性能劣化を最小限に抑えられることが確認された。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询