核心概念
大規模言語モデル(LLM)の推論レイテンシを効果的に削減するため、入力シーケンスとタスクに適応してTransformer層を選択的にスキップするアルゴリズム「FiRST」を提案する。
要約
FiRST: 入力適応型レイテンシ削減のためのファインチューニング可能なルータ選択型Transformer
本論文では、リソース制約のある環境での大規模言語モデル(LLM)の推論レイテンシと計算量を削減するため、入力シーケンスとタスクに適応してTransformer層を選択的にスキップするアルゴリズム「FiRST」を提案する。
LLMは目覚ましい性能を示すが、その膨大なパラメータ数は、メモリ、レイテンシ、計算リソースが限られる環境、特にモバイルやエッジデバイスへの導入を妨げている。先行研究では、層のスキップによるレイテンシ改善に取り組んでいるが、それぞれに限界がある。早期終了は、最新のフレームワークで高速化に不可欠なKVキャッシュの処理に適用できず、入力に依存しないヒューリスティックは、タスクや入力シーケンスによって異なる層の重要性を捉えられない。