Core Concepts
Ada-LEvalは、言語モデルの長文理解能力を評価するための長さ適応型ベンチマークである。TSort課題とBestAnswer課題を通じて、言語モデルの長文理解と推論能力を詳細に評価する。
Abstract
本論文では、長文理解能力を評価するための新しいベンチマーク「Ada-LEval」を提案している。Ada-LEvalには以下の2つの課題が含まれている:
TSort課題:
長文を複数の文章セグメントに分割し、それらを正しい順序に並べ替える課題
文章の完全な理解と推論が必要
BestAnswer課題:
長文中の質問に対する最適な回答を選択する課題
文章全体の理解が必要
実験の結果、現在の最先端の言語モデルでも、特に超長文設定(32,000トークン以上)においては、TSort課題とBestAnswer課題の両方で大幅な性能低下が見られることが明らかになった。これは、現在の言語モデルにおける長文理解能力の限界を示唆している。
さらに、指示に従う率や回答のコピー率の分析から、多くの言語モデルが長文の理解と推論に課題を抱えていることが分かった。一方、位置バイアスの分析や位置埋め込み手法の検討により、言語モデルの長文理解能力を向上させる可能性も示された。
全体として、Ada-LEvalは言語モデルの長文理解能力を詳細に評価できる新しいベンチマークであり、今後の長文理解技術の発展に寄与することが期待される。
Stats
長文を正しい順序に並べ替えられる確率は、GPT-4-Turbo-0125が2,000トークンで15.5%、16,000トークンで5.5%と大幅に低下した。
BestAnswer課題では、GPT-4-Turbo-0125が16,000トークンの設定で44.5%の正解率を達成したが、他の言語モデルは10%以下の正解率に留まった。
超長文設定(32,000トークン以上)では、どの言語モデルも大幅な性能低下を示し、ランダムレベルの正解率しか得られなかった。