核心概念
大型語言模型的預測能力會隨著時間推移而下降,即使透過資訊檢索技術提供最新資訊,這種下降趨勢依然存在,突顯出持續模型更新的必要性。
這篇研究論文介紹了一個名為「每日預言」(Daily Oracle)的全新基準測試,用於評估大型語言模型(LLM)的時態泛化和預測能力。
研究目標
本研究旨在探討大型語言模型是否能夠準確預測未來事件,並評估其預測能力如何隨時間推移而變化。
方法
研究人員開發了「每日預言」基準測試,該測試利用每日新聞自動生成問答對,涵蓋商業、政治、藝術等多個領域。問答對分為是非題和選擇題兩種形式,要求模型根據現有知識預測未來事件的結果。研究人員評估了多個大型語言模型在「閉卷」和「有限開卷」兩種設定下的表現。「閉卷」設定下,模型只能依賴其訓練數據中的知識回答問題;而「有限開卷」設定下,模型可以透過資訊檢索技術訪問特定時間範圍內的新聞文章以獲取額外資訊。
主要發現
大型語言模型的預測準確率會隨著時間推移而下降,即使在「有限開卷」設定下提供最新資訊,這種下降趨勢依然存在。
模型在預測其知識截止日期之後的事件時表現下降更為顯著,突顯出模型在時態泛化方面面臨的挑戰。
與是非題相比,模型在選擇題上的表現通常較好。
Claude-3.5-Sonnet 在所有模型中表現最佳,而 GPT-4 在選擇題上表現出色,但在是非題上表現相對遜色。
主要結論
研究結果表明,儘管大型語言模型在預測未來事件方面具有一定能力,但其預測能力會隨著時間推移而下降。資訊檢索技術可以部分緩解這一問題,但並不能完全解決。持續的模型更新對於維持模型的預測能力至關重要。
研究意義
「每日預言」基準測試為評估大型語言模型的時態泛化和預測能力提供了一個有價值的工具。研究結果對於理解大型語言模型的局限性和未來發展方向具有重要意義。
局限性和未來研究方向
本研究的局限性在於評估時間跨度相對較短,未來需要進行更長時間的評估以觀察模型的長期表現。此外,未來研究可以探索更先進的資訊檢索技術和模型更新策略,以進一步提升大型語言模型的預測能力。
统计
從 2020 年 1 月到 2024 年 9 月,大型語言模型在是非題上的平均表現下降了 20.14%(從 64.68% 下降到 51.65%),在選擇題上下降了 23.26%(從 58.30% 下降到 44.74%)。
GPT-4 在選擇題上的表現下降最為顯著,知識截止日期之後的平均年同比下降率為 18.47%,而知識截止日期之前的平均年同比下降率僅為 4.23%。
Claude-3.5-Sonnet 在所有模型中表現最佳。