本論文では、長文理解には検索と全体理解という2つの主要な能力が存在することを主張している。検索は関連情報を特定する能力であり、全体理解は文脈全体を理解する能力である。この区別は、効率的な長文LLMのアーキテクチャ設計に関係する。
DOLCEフレームワークでは、2つのパラメータλとkを使ってタスクの複雑さと冗長性を捉え、5つのカテゴリーに分類する。短文からサンプリングして確率を推定し、混合モデルを使ってλとkを推定する。
44のタスクを分析した結果、COWタスクの0%から67%が検索重視、0%から89%が全体理解重視であり、PIGタスクの0%から29%が検索重視、8%から90%が全体理解重視であることが分かった。これらの結果は、LLMの長文理解能力の理解と改善に役立つ。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zi Yang kl. arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06338.pdfDybere Forespørgsler