核心概念
LLaMA-Excitor は、大規模言語モデルの潜在能力を引き出し、指示理解能力を向上させる軽量な手法である。従来の手法とは異なり、中間表現を直接変更せずに、注意スコアを調整することで、モデルの推論プロセスを変更する。これにより、事前学習済みの知識を保持しつつ、指示理解能力を向上させることができる。
要約
本論文では、LLaMA-Excitor と呼ばれる新しい手法を提案している。LLaMA-Excitor は、大規模言語モデル(LLM)の指示理解能力を向上させるための軽量な手法である。
従来の微調整手法は以下の課題を抱えていた:
- アダプター手法は計算コストが高く、LLMの内部推論プロセスを大きく変更するため、既存の能力が失われる可能性がある
- プロンプト学習手法は、固定長のトークン列に必要な知識を集約するのが難しく、出力制御が困難
- LoRA手法は、LLMの特徴分布から逸脱した特徴を導入する可能性がある
LLaMA-Excitorは、これらの課題を解決するために、中間表現を直接変更せずに、注意スコアを調整することで、LLMの推論プロセスを変更する手法を提案している。具体的には以下の通り:
- LLaMA-Excitorは、LLaMAの上位L層にExcitorブロックを挿入する。Excitorブロックは、学習可能なプロンプトを使って、注意スコアを再構築する。
- これにより、入力系列に応じて、LLMが指示に従うための注意を適応的に割り当てることができる。
- 中間表現は変更せずに、注意スコアのみを調整するため、LLMの既存の知識を保持しつつ、指示理解能力を向上させることができる。
- さらに、Excitorは言語のみのタスクと視覚指示タスクの統一的なモデリングを可能にし、複雑な視覚言語アライメントモジュールを必要としない、低コストな視覚指示フォロワーを実現できる。
実験の結果、LLaMA-Excitorは、言語のみのタスクと視覚指示タスクの両方で優れた性能を示した。特に、MMLU ベンチマークでは、LLaMA-7Bよりも3.12%の相対的な性能向上を達成し、COCO キャプショニングでは、従来手法を大きく上回る結果を得た。
統計
LLaMA-Excitorは、LLaMA-7Bの上位30層にExcitorブロックを挿入し、指示理解能力を向上させた。
LLaMA-Excitorは、MMLU ベンチマークにおいて、LLaMA-7Bよりも3.12%の相対的な性能向上を達成した。
LLaMA-Excitorは、COCO キャプショニングタスクにおいて、BLEU@4 49.7、CIDEr 157.5の高い性能を示した。
引用
"LLaMA-Excitorは、LLMの潜在能力を引き出し、指示理解能力を向上させる軽量な手法である。"
"LLaMA-Excitorは、中間表現を直接変更せずに、注意スコアを調整することで、LLMの推論プロセスを変更する。"
"LLaMA-Excitorは、言語のみのタスクと視覚指示タスクの統一的なモデリングを可能にし、低コストな視覚指示フォロワーを実現できる。"