核心概念
RoPEベースのLLMを微調整する際、より大きなまたは小さなベースを使用することで、外挿性能を向上させることができます。
要約
この論文は、RoPEベースのLLMにおける外挿問題に焦点を当てています。主な観察結果や理論的枠組みから、外挿性能向上の鍵要素である周期的視点について詳細に説明しています。実験結果や提案されたスケーリング法則に基づいて、RoPEベースのLLMの外挿能力向上に関する包括的な洞察が提供されています。
INTRODUCTION
- RoPE(Rotary Position Embedding)を使用したLLM(Large Language Models)の外挿能力が注目されている。
- 大きなベースまたは小さなベースでRoPEを微調整することで、外挿性能が向上することが示唆されている。
OBSERVATION
- 大きなベースでは、LLaMA2はトレーニングコンテキスト長を超えた外挿が可能。
- 小さなベースでも、トレーニングコンテキスト長内での微調整により外挿性能が向上。
EXPLANATION
- 小さなベースでは、cosine波形がトレーニングコンテキスト内に収まり、全次元が適切に訓練される。
- 大きなベースでは特定の次元以降で周期がトレーニングコンテキストを超えるため、最後の次元は十分な訓練を受けられず困難。
FURTHER VALIDATION FOR EXTRAPOLATION
- 最後の36次元を除去し再微調整することで直接微調整よりも優れた結果を得られた。
統計
RoPE fine-tuned with a smaller or larger base on the original training length of 4K or a much longer context of 16K, could outperform other extrapolation strategies and extrapolate to 100K context length.