المفاهيم الأساسية
PEDROは、入力プロンプトに応じて調整ベクトルを生成し、大規模言語モデルの内部表現を修正することで、パラメータ効率的なファインチューニングを実現する。
الملخص
本研究では、Prompt DEpenDent Representation MOdification (PEDRO)と呼ばれる新しいパラメータ効率的なファインチューニング(PEFT)手法を提案している。PEDROは、各Transformerレイヤーにベクトル生成器を統合し、入力プロンプトに応じて調整ベクトルを生成する。これらの調整ベクトルは、大規模言語モデルの隠れ表現に対して内積演算を行うことで、モデルの出力や生成内容に影響を与える。
広範な実験の結果、PEDROは以下のことを示している:
- 同程度のチューニングパラメータ数の場合、PEDROは最近のPEFTベースラインを上回るパフォーマンスを達成する。
- 単一バックボーン多テナント展開モデルにおいて、PEDROはLoRAに比べて大幅に高速な推論を実現する。これは産業応用における大きな潜在的価値を示唆している。
الإحصائيات
大規模言語モデルを単一バックボーンで複数のユーザーやタスクに対応させる際、パラメータ効率的なファインチューニングが重要である。
LoRAは安定したパフォーマンスを発揮するが、推論時の遅延が大きいという課題がある。
(IA)3はより効率的なPEFT手法だが、LoRAほどの性能は得られない。
اقتباسات
"PEDRO refines large language models (LLMs) by directly altering their internal representations through multiplication with specific vectors, thereby controlling the LLM's behavior."
"Contrary to existing approaches [24,2], we incorporate a prompt-aware mechanism into our PEFT methodology."
"Here, the modification vectors are neither randomly initialized nor remain constant across varying input prompts. Instead, we integrate a Vector Generator (VG) into every Transformer layer, which takes the hidden states of the input prompts as inputs and produces the modification vectors as outputs."