核心概念
大型語言模型(LLMs)並非人類語言處理的模型,而是通用的模式學習機器,能夠從任何結構化的輸入中提取預測模式,無論其是否符合人類語言結構。
摘要
文獻類型:研究論文
書目資訊:
Luo, X., Ramscar, M., & Love, B. C. (2024). Beyond Human-Like Processing: Large Language Models Perform Equivalently on Forward and Backward Scientific Text. arXiv preprint arXiv:2411.11061.
研究目標:
本研究旨在評估大型語言模型(LLMs)是否為人類語言處理的適當模型,特別是探討基於 Transformer 架構的 LLMs 在處理正序和反序科學文本時的表現差異。
研究方法:
研究人員採用 GPT-2 架構,並使用二十年的神經科學文獻進行訓練,其中一組模型使用正序文本訓練,另一組則使用字符級反轉的文本訓練。接著,他們使用 BrainBench 基準測試評估模型在預測神經科學實驗結果方面的能力,並與人類專家的表現進行比較。
主要發現:
- 使用反序文本訓練的模型在 BrainBench 任務上的表現與使用正序文本訓練的模型相當,甚至略勝一籌。
- 隨著模型規模的增加,無論是正序訓練還是反序訓練的模型,其在 BrainBench 上的表現均有所提升,且大型模型的準確率甚至超過了人類專家。
- 儘管反序訓練的模型在驗證數據集和 BrainBench 測試項目上表現出更高的困惑度(perplexity),但這並不影響其區分 BrainBench 中正確和錯誤實驗結果的能力。
- 正序訓練的模型與人類專家對 BrainBench 項目難度的判斷具有更高的相關性,而反序訓練的模型與人類判斷的相關性較低。
主要結論:
研究結果表明,基於 Transformer 的 LLMs 應該被理解為通用的模式學習機器,而非人類語言處理的特定模型。它們能夠從數據中提取預測性結構,無論數據格式或是否與人類認知限制相符。儘管反序文本違反了人類語言的基本屬性,但反序訓練模型的成功表明,LLMs 的能力超越了人類認知的範疇,不應將其解釋為類人學習機制的證據。
研究意義:
本研究對於理解 LLMs 的能力和局限性具有重要意義,提醒人們不應將 LLMs 的成功簡單地等同於人類認知過程。
研究限制和未來方向:
未來研究可以進一步探討 LLMs 在處理其他類型的「不可能語言」時的表現,以及 LLMs 與人類認知之間更細微的差異。
统计
反向訓練的 tokenizer 比正向訓練的 tokenizer 產生了更多 (27%) 與神經科學相關的 tokens。
正向和反向訓練的模型判斷之間的相關性 (M = 0.69, SD = 0.07) 比與人類判斷的相關性 (M = 0.09, SD = 0.04) 更高。
反向訓練的模型與人類判斷的相關性 (M = 0.05, SD = 0.02) 明顯低於正向訓練的模型 (M = 0.13, SD = 0.01; t(2) = 20.848, p = 0.002)。
引用
"This widespread success is attributable to LLM’s ability to extract predictive patterns from any sufficiently structured input."
"Given their generality, we suggest caution in interpreting LLM’s success in linguistic tasks as evidence for human-like mechanisms."
"These findings suggest that transformer-based language models are best understood as general pattern learning machines rather than specific models of human language processing."