核心概念
大型語言模型 (LLM) 雖然在形式語言能力方面表現出色,但在語用推理方面,特別是作為說話者生成符合語境的語句方面,仍有不足。
摘要
本文探討了大型語言模型 (LLM) 是否能像人類一樣進行語用推理。作者採用理性言語行為 (RSA) 框架,以參考遊戲的形式,比較了先進的 LLM (Llama3-8B-Instruct) 和 RSA 模型在生成指稱語句時的評分。研究發現,雖然 LLM 的評分與 RSA 模型的評分存在一定的正相關關係,但沒有充分證據表明 LLM 的行為像一個語用說話者。
研究方法
研究人員使用 TUNA 數據集(家具領域)構建了一個參考遊戲,其中包含預定義屬性的物體。他們設計了兩種方法來構建語句空間:
Top-k 替代方案: 使用束搜索從 LLM 中採樣前 k 個語句,生成具有靈活措辭的語用序列。
邏輯規則替代方案: 根據邏輯規則構建語用和字面語句。
研究人員還定義了兩種不同的意義函數來評估語句與物體之間的關係:
基於提示的意義函數: 利用 LLM 的自然語言理解能力,通過提示工程生成數值分數。
基於規則的意義函數: 基於特徵排除,如果語句包含與物體特徵相矛盾的特徵,則該語句不描述該物體。
主要發現
LLM 的評分與使用不同意義函數的 RSA 模型的評分之間沒有明顯的線性關係。
LLM 更傾向於字面語句,而不是語用語句。
LLM 在邏輯構建的語句上的表現優於 Top-k 生成的語句。
LLM 可以有效地區分不同構建類型的語句,但在對語用語句進行準確排序方面存在不足。
結論
研究結果表明,LLM 並非理想的語用說話者。儘管 LLM 在受控環境中表現出一定的語用能力,但其在日常語言中的泛化能力仍不確定。
研究意義
提供了一個評估 LLM 語用能力的框架。
強調了 LLM 在語用推理方面的局限性。
為改進 LLM 的語用能力提供了方向。
局限性和未來研究方向
參考遊戲的結構化性質可能無法完全反映現實世界交流的複雜性。
應探索更多樣化的數據集,以反映更廣泛的交流環境和自然語言使用。
測試其他 LLM,特別是那些經過大型數據集訓練的具有高級語用推理能力的 GPT 模型。
研究 LLM 與 RSA 模型在多次迭代而非單次交互時的對齊情況。
檢查縮放參數和成本函數對對齊的影響。
統計資料
研究使用了包含 2,940 個參考遊戲的 TUNA 數據集。
共生成了 386,510 個語句實例,其中 88,310 個由 Top-k 採樣生成,298,200 個由基於邏輯的規則生成。
基於規則的意義函數在識別邏輯構建序列的字面關係方面準確率達到 99.9%。
基於提示的意義函數在邏輯構建序列上的平均準確率為 97.3%。
LLM 與使用基於規則的意義函數的 RSA 模型的相關性更高 (PCC = 0.303, SRCC = 0.736)。
LLM 與使用基於提示的意義函數的 RSA 模型的相關性較低 (PCC = 0.291, SRCC = 0.606)。