المفاهيم الأساسية
大規模言語モデルのコンテキストウィンドウを拡張する際、ロータリー角度分布の一貫性を維持することが重要である。
الملخص
本論文は、大規模言語モデルのコンテキストウィンドウ拡張を分布的観点から分析している。具体的には以下の通りである:
- ロータリー角度分布を推定し、その分布の一貫性がコンテキストウィンドウ拡張に重要であることを示した。
- 角度分布の擾乱を最小化するように、各次元で最適な拡張手法(補間または外挿)を選択する手法を提案した。
- 提案手法は、既存の拡張手法と比較して、LongBench-Eベンチマークで最大4.33%の平均スコア向上を達成した。
- 提案手法は、短文タスクでも元のモデルの性能を維持できることを示した。
- パスキー検索タスクでは、提案手法が100%の正解率を達成した。
以上より、ロータリー角度分布の一貫性を維持することが、大規模言語モデルのコンテキストウィンドウ拡張に重要であることが示された。
الإحصائيات
提案手法は、LLaMA2-7Bモデルを8kに拡張する際、最大72%の分布擾乱を削減できる。
LLaMA2-13Bモデルを16kに拡張する際、最大32%の分布擾乱を削減できる。
اقتباسات
"大規模言語モデルのコンテキストウィンドウを拡張する際、ロータリー角度分布の一貫性を維持することが重要である。"
"提案手法は、既存の拡張手法と比較して、LongBench-Eベンチマークで最大4.33%の平均スコア向上を達成した。"