核心概念
長文脈LLMは長い入力シーケンスを理解し、極端なラベル空間を認識する能力が不足している。
要約
本研究は、長期文脈学習タスクを評価するための専用ベンチマーク「LongICLBench」を紹介する。このベンチマークは、28から174のラベル範囲をカバーする6つのデータセットで構成され、2Kから50Kトークンの入力長を含む。
評価の結果、長文脈LLMは短い入力長のタスクでは比較的良好なパフォーマンスを示すが、最も困難なDiscoveryタスク(174ラベル)では、全てのLLMがタスク定義を理解できず、ほぼゼロの精度に留まった。これは、長文シーケンスの理解と推論における現在のLLM機能の大きな格差を示唆している。
さらに分析では、モデルが入力シーケンスの後半に提示されたラベルを好む傾向があることが明らかになった。長シーケンス全体にわたる推論能力の向上が課題となっている。
本研究は、長文脈理解と推論がまだ現行のLLMにとって大きな課題であることを明らかにした。LongICLBenchは、将来の長文脈LLMの現実的な評価に役立つと考えられる。
統計
最も困難なDiscoveryタスクでは、全てのLLMがタスク定義を理解できず、ほぼゼロの精度に留まった。
一部のモデルでは、入力長に対して線形的にパフォーマンスが低下する傾向が見られた。
引用
"長文脈LLMは長い入力シーケンスを理解し、極端なラベル空間を認識する能力が不足している。"
"本研究は、長期文脈理解と推論がまだ現行のLLMにとって大きな課題であることを明らかにした。"