本論文では、長文理解能力を評価するための新しいベンチマーク「Ada-LEval」を提案している。Ada-LEvalには以下の2つの課題が含まれている:
TSort課題:
BestAnswer課題:
実験の結果、現在の最先端の言語モデルでも、特に超長文設定(32,000トークン以上)においては、TSort課題とBestAnswer課題の両方で大幅な性能低下が見られることが明らかになった。これは、現在の言語モデルにおける長文理解能力の限界を示唆している。
さらに、指示に従う率や回答のコピー率の分析から、多くの言語モデルが長文の理解と推論に課題を抱えていることが分かった。一方、位置バイアスの分析や位置埋め込み手法の検討により、言語モデルの長文理解能力を向上させる可能性も示された。
全体として、Ada-LEvalは言語モデルの長文理解能力を詳細に評価できる新しいベンチマークであり、今後の長文理解技術の発展に寄与することが期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問