本研究は、長期文脈学習タスクを評価するための専用ベンチマーク「LongICLBench」を紹介する。このベンチマークは、28から174のラベル範囲をカバーする6つのデータセットで構成され、2Kから50Kトークンの入力長を含む。
評価の結果、長文脈LLMは短い入力長のタスクでは比較的良好なパフォーマンスを示すが、最も困難なDiscoveryタスク(174ラベル)では、全てのLLMがタスク定義を理解できず、ほぼゼロの精度に留まった。これは、長文シーケンスの理解と推論における現在のLLM機能の大きな格差を示唆している。
さらに分析では、モデルが入力シーケンスの後半に提示されたラベルを好む傾向があることが明らかになった。長シーケンス全体にわたる推論能力の向上が課題となっている。
本研究は、長文脈理解と推論がまだ現行のLLMにとって大きな課題であることを明らかにした。LongICLBenchは、将来の長文脈LLMの現実的な評価に役立つと考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tianle Li,Ge... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02060.pdfDeeper Inquiries