核心概念
本文提出了一種新的評估框架,利用一個包含 675 個當前無法解答的問題的數據集,來測試大型語言模型 (LLM) 是否能夠承認自己的知識局限性,以此作為評估未來機器智慧的關鍵指標。
參考來源: Noever, D., McKee, F. (2024), https://github.com/reveondivad/certify/blob/main/claude-3p5-sonnet.csv https://github.com/reveondivad/certify/blob/main/gpt-4.csv https://github.com/reveondivad/certify/blob/main/impossible_test.csv
研究目標: 本研究旨在評估大型語言模型 (LLM) 在面對根本無法解答的問題時,是否能夠承認其不確定性,而非產生看似合理但不正確的答案。
方法: 研究人員創建了一個包含 675 個無法解答的問題的數據集,涵蓋數學、物理、生物、哲學等多個領域。他們使用這些問題測試了十二個最先進的 LLM,包括開放原始碼和封閉原始碼模型,觀察它們承認未知答案的傾向。
主要發現:
最佳模型在承認問題無解方面的準確率在 62-68% 之間,涵蓋生物學、哲學和數學等領域。
研究觀察到問題難度與模型準確率之間呈反比關係,GPT-4 在更具挑戰性的問題 (35.8%) 上表現出更高的不確定性承認率,而在較簡單的問題 (20.0%) 上則較低。
不同問題類別之間存在顯著差異,模型在承認發明和 NP 難題的不確定性方面表現不佳,而在哲學和心理挑戰方面表現相對較好。
結論:
本研究強調了不確定性識別作為未來機器智慧評估的關鍵組成部分的重要性。
「不可能的測試」通過提供 LLM 識別自身知識邊界的當前限制的經驗證據,擴展了先前的通用智慧測試理論框架,為改進模型訓練架構和評估方法提出了新的方向。
意義: 本研究為評估和理解 LLM 的能力提供了一個新的視角,強調了在追求人工智慧的過程中,謙遜和承認不確定性的重要性。
限制和未來研究:
未來可以擴展數據集,納入更多領域和更具挑戰性的問題。
可以進一步研究 LLM 識別不同類型「不可能」問題的能力,例如區分實際上不可能和理論上不可能的任務。
可以探索將這些發現應用於開發更強大的 AGI 系統,使其能夠更好地識別和傳達自身的局限性。
統計資料
最佳模型在承認問題無解方面的準確率在 62-68% 之間。
GPT-4 在更具挑戰性的問題 (35.8%) 上表現出更高的不確定性承認率,而在較簡單的問題 (20.0%) 上則較低。