核心概念
長文理解には検索と全体理解という2つの主要な能力が存在する。タスクの焦点カテゴリーを知ることなくしては、LLMの長文理解能力の理解と改善は不可能である。DOLCEフレームワークは、ベンチマークから検索重視とホリスティック理解重視のタスクを自動的に識別し、それぞれの難易度を定量的に測定する。
要約
本論文では、長文理解には検索と全体理解という2つの主要な能力が存在することを主張している。検索は関連情報を特定する能力であり、全体理解は文脈全体を理解する能力である。この区別は、効率的な長文LLMのアーキテクチャ設計に関係する。
DOLCEフレームワークでは、2つのパラメータλとkを使ってタスクの複雑さと冗長性を捉え、5つのカテゴリーに分類する。短文からサンプリングして確率を推定し、混合モデルを使ってλとkを推定する。
44のタスクを分析した結果、COWタスクの0%から67%が検索重視、0%から89%が全体理解重視であり、PIGタスクの0%から29%が検索重視、8%から90%が全体理解重視であることが分かった。これらの結果は、LLMの長文理解能力の理解と改善に役立つ。
統計
長文コンテキストは最大10M tokens まで処理可能
長文コンテキスト評価タスクは44個収集
COWタスクの0%から67%が検索重視、0%から89%が全体理解重視
PIGタスクの0%から29%が検索重視、8%から90%が全体理解重視
引用
"長文理解には検索と全体理解という2つの主要な能力が存在する。"
"タスクの焦点カテゴリーを知ることなくしては、LLMの長文理解能力の理解と改善は不可能である。"
"DOLCEフレームワークは、ベンチマークから検索重視とホリスティック理解重視のタスクを自動的に識別し、それぞれの難易度を定量的に測定する。"