核心概念
本研究提出一個基於行為經濟學理論的框架,用於評估大型語言模型(LLM)在不確定環境下的決策行為,特別關注風險偏好、概率加權和損失規避,並探討社會人口特徵對LLM決策行為的影響。
摘要
文獻回顧
- 近年來,大型語言模型(LLM)的應用越來越廣泛,涵蓋了從回答日常問題、生成內容到複雜的決策支持系統等各個領域。
- 隨著這些模型越來越融入決策過程,了解它們內部的決策傾向變得至關重要。
- 行為經濟學理論,特別是由Tanaka、Camerer和Nguyen提出的價值函數模型(TCN模型),為理解人類在不確定性下的決策行為提供了寶貴的見解。
- 過往研究表明,LLM在面對特定人口統計或人格特質時,在處理信息方面存在顯著的偏見和表現下降。
研究方法
本研究採用基於行為經濟學理論的TCN模型,設計了三個系列的多選題實驗,用於評估LLM的決策行為模式。
- 實驗一和實驗二側重於正向結果,以確定風險偏好 (σ) 和概率加權 (α) 的影響。
- 實驗三引入了負向結果,以評估損失規避 (λ) 的影響。
- 研究人員將社會人口特徵嵌入到LLM中,以評估這些特徵如何影響LLM的決策行為。
研究結果
- 在無特定情境設定下,所有三個LLM模型都表現出與人類相似的決策行為模式:風險規避、損失規避和對小概率事件的過度加權。
- 嵌入社會人口特徵後,LLM的決策行為出現顯著變化,例如在某些情境下風險規避增加,以及不同模型之間風險規避程度不同。
- ChatGPT 在年輕用戶中表現出對小概率事件的過度加權傾向,而 Gemini 則表現出更高的損失規避。
- Claude 對女性受試者的風險偏好和概率加權參數有顯著降低,這表明它們可能認為女性人口統計數據的風險更高。
- Claude 對受教育程度較低的用戶的風險規避程度較低,而 Gemini 對受教育程度較低的用戶的損失規避程度較低。
- Claude 認為已婚人士不太可能規避風險。
- 農村地區的生活顯著降低了概率加權,並增加了損失規避,這意味著環境因素會影響其反應。
研究結論
- 本研究建立了一個評估LLM行為的基本框架,並為未來的研究開闢了道路,旨在使這些模型與道德標準和人類價值觀更加一致。
- 研究結果強調,持續審查和改進LLM至關重要,以確保它們不會延續或加劇社會偏見。
- 未來的研究應探討如何設計LLM,使其在現實與道德責任之間取得平衡,以及它們的內在行為應如何反映,無論是否嵌入人類人口統計學特徵。
統計資料
本研究選擇了三個商業LLM:ChatGPT-4-Turbo、Claude-3-Opus 和 Gemini-1.0-Pro。
樣本量為300個數據點,這代表了在人類金融決策行為實驗中通常觀察到的上限。