Core Concepts
本文提出了一個利用胡言亂語遊戲來評估大型語言模型 (LLM) 在創造力和邏輯推理方面能力的模擬框架,並分析了不同 LLM 在遊戲中的表現,揭示了它們的優勢和需要改進的地方,特別是LLM 對於低頻詞彙的處理能力不足。
Abstract
論文概述
本研究論文介紹了一個創新的模擬框架,旨在評估大型語言模型 (LLM) 在創造力和邏輯推理方面的能力。該框架利用了「胡言亂語」(Balderdash) 遊戲,這是一款要求玩家為生僻詞彙編造似是而非的定義,並識別正確定義的遊戲。
研究方法
- 選擇五種 LLM(Llama、Phi、Gemma、Mistral 和 GPT)作為玩家,並使用 Llama 作為遊戲裁判。
- 建立兩個詞彙庫:一個包含 Balderdash 遊戲的生僻詞彙,另一個包含常見的基礎英語詞彙。
- 設計三種實驗:排行榜實驗、收斂性實驗和遊戲規則實驗。
- 使用多種指標評估 LLM 的表現,包括真實定義率、欺騙率、正確猜測率等。
主要發現
- LLM 在處理常見詞彙時表現優於生僻詞彙,顯示出它們在處理低頻詞彙時推理能力的不足。
- 沒有任何一個模型在所有遊戲設定中都佔據主導地位。
- LLM 並未展現出基於遊戲規則進行推理或從歷史經驗中學習最佳策略的能力。
研究結論
- LLM 在創造性和欺騙性方面展現出一定的潛力,但仍有改進空間,特別是在處理低頻詞彙和策略學習方面。
- 該模擬框架為評估和理解 LLM 在動態環境中的行為提供了一個有價值的平台。
研究貢獻
本研究為評估 LLM 的創造力和邏輯推理能力提供了一個新穎的框架,並揭示了這些模型在遊戲環境中的優勢和局限性。這些發現對於改進 LLM 的設計和訓練策略具有重要意義。
Stats
Llama 在判斷 LLM 生成定義與參考定義的語義等價性方面表現最佳,準確率為 82%。
在「基礎英語常用詞」數據集中,所有模型的表現都隨著歷史信息的增加而顯著提高。
在「所有胡言亂語詞」數據集中,Phi 在識別正確定義方面表現最佳,而 Mistral 在欺騙對手方面表現最佳。
在收斂性實驗中,沒有一個模型的 LKR 值隨著遊戲輪數的增加而收斂到 1。
在遊戲規則實驗中,即使將生成真實定義的得分設為零,模型仍然傾向於選擇這種策略。