核心概念
長文脈言語モデルの性能は、単純な情報検索能力以外の行動を評価する必要があり、文脈長の増加に伴って大幅に低下する。
要約
本研究では、長文脈言語モデルの性能を包括的に評価するためのベンチマーク「RULER」を提案している。RULERには、情報検索以外の行動を評価する4つのタスクカテゴリが含まれている:
- 情報検索: 従来の「針山」テストを拡張し、検索対象の種類や量の多様性を評価する。
- 多段階追跡: 照応関係解決の最小限のプロキシタスクである変数追跡を導入し、長文脈内での関連エンティティの追跡能力を確認する。
- 集約: 要約のプロキシタスクである一般語/頻出語抽出を導入し、長文脈にわたる関連情報の集約能力を評価する。
- 質問応答: 既存の短文脈QAデータセットに雑音情報を追加し、長文脈における質問応答能力を評価する。
RULERを用いて10の長文脈言語モデルを評価した結果、すべてのモデルが「針山」テストでは高精度を達成するものの、文脈長の増加に伴って大幅な性能低下を示した。32,000トークンを超える文脈長を主張するモデルのうち、実際に32,000トークンの文脈長でも十分な性能を維持できたのは4モデルのみであった。さらに分析では、長文脈下でのモデルの失敗パターンとして、雑音情報の無視の失敗、文脈情報の非効率的な利用(単純コピーや事前知識の利用)などが観察された。
統計
長文脈言語モデルの32,000トークンを超える文脈長の主張にもかかわらず、実際に32,000トークンの文脈長でも十分な性能を維持できたのは4モデルのみであった。
長文脈下でのモデルの失敗パターンとして、雑音情報の無視の失敗、文脈情報の非効率的な利用(単純コピーや事前知識の利用)などが観察された。
引用
"長文脈言語モデルの性能は、単純な情報検索能力以外の行動を評価する必要があり、文脈長の増加に伴って大幅に低下する。"
"32,000トークンを超える文脈長を主張するモデルのうち、実際に32,000トークンの文脈長でも十分な性能を維持できたのは4モデルのみであった。"