大型語言模型(LLM)的評估通常使用多選題測試。當 LLM 以正溫度進行推理時,重複提出相同問題會產生不同答案的概率分佈。理想情況下,如果 LLM 表現良好,大部分概率質量應該落在正確答案上;反之,如果表現不佳,則答案分佈應該更加均勻。
然而,研究發現 LLM 的實際行為並非如此。研究人員使用 NeoSQuAD 數據集中的九個問題,對 OpenAI 的 gpt-4o-2024-08-06 LLM 進行了測試。結果顯示,LLM 的答案直方圖呈現高度非均勻性,即使在移除上下文信息後依然如此。更令人驚訝的是,不同的 LLM 傾向於選擇相同的錯誤答案,這種現象表明 LLM 的錯誤並非隨機出現,而是存在某種系統性的關聯性。
為了進一步探究這種現象,研究人員使用了 MMLU-Pro 評估,分析了 37 個 LLM 在 12,000 多個問題上的表現。通過計算 LLM 之間選擇相同錯誤答案的 z 分數,研究人員發現所有 37 個 LLM 的行為都極為相似,z 分數中位數高達 13.15。
基於這些成對關聯性,研究人員使用層次聚類方法構建了一個 LLM 分類法。該分類法揭示了一些有趣的現象,例如專有模型和開源模型之間存在顯著差異,以及 Anthropic、Llama 等不同模型家族之間的關係。
研究還探討了“普遍錯誤”,即幾乎所有 LLM 都會答錯的問題。分析發現,在某些情況下,LLM 之間的一致錯誤答案可能是由於測試本身存在缺陷。
總之,這項研究揭示了 LLM 錯誤的非隨機性和系統性關聯性,為理解 LLM 的內部機制提供了新的視角。基於錯誤關聯性的 LLM 分類法也為模型選擇和改進提供了參考。未來,研究人員可以進一步探究 LLM 錯誤的根源,並開發更有效的評估方法。
翻譯成其他語言
從原文內容
arxiv.org
深入探究