本研究は、LLMsの長文脈拡張手法の性能を比較評価するための標準化されたプロトコルを提案している。
まず、同一のベースモデル(LLaMA2-7B)を使用し、拡張手法の違いが結果に及ぼす影響を排除している。拡張手法は、正確な注意機構を用いる手法(PI、YaRN、CLEX、NTK)と近似的な注意機構を用いる手法(LM-Infinite、Landmark Attention、LongLora)に分類される。
評価指標としては、内部指標(perplexity)と外部指標(Needle-in-the-Haystack、RULER、LongBench)を用いている。結果から以下の知見が得られた:
正確な注意機構を用いる手法が、近似的な注意機構を用いる手法よりも優れた性能を示す。これは、速度のためにAccuracyを犠牲にする近似手法の限界を示唆している。
正確な注意機構を用いる手法の中では、Dynamic NTKが最も優れた性能を示す。ただし、長文脈への外挿は依然として課題である。
Perplexityは、正確な注意機構を用いる手法の場合、外部指標とよく相関する。一方、近似手法では、Perplexityと外部指標の関係がやや異なる。
文脈長の拡張は短期的には性能を低下させるが、長期的には向上させる。
本研究の成果は、LLMsの長文脈処理能力の評価と改善に役立つと考えられる。また、オープンソースで公開される実装とモデルは、この分野の研究を促進すると期待される。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies