本文提出了DOLCE框架,旨在自動識別檢索型和整體理解型的長文理解任務,並量化每種類型的難度。
DOLCE框架包括兩個主要步驟:
作者使用混合模型假設,包括非參數背景噪音分量和參數/非參數混合oracle分量,以平滑模型噪音。在正確或錯誤(COW)和部分得分(PIG)兩種情況下,作者推導了相應的概率函數。
作者將44個長文理解任務分類為5個類別:
I. 閉卷零射(CBZS)
II. 簡單
III. 檢索
IV. 平衡
V. 整體理解
結果顯示,0%到67%的COW問題和0%到29%的PIG問題屬於檢索型(III類),0%到89%的COW問題和8%到90%的PIG問題屬於整體理解型(V類)。這些結果有助於理解和指導大型語言模型長文理解能力的發展。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor