核心概念
位元組級分詞器中不完整的詞元,即使經過良好的訓練,也容易受到幻覺的影響,特別是在不太可能出現的雙元詞組合中,這凸顯了開發更強大的語言模型時需要考慮的潛在弱點。
這篇研究論文探討了位元組級分詞器(特別是位元組對編碼,BPE)中不完整詞元的弱點。作者認為,這些詞元(無法獨立解碼且必須與其他特定詞元一起出現才能形成合法 Unicode 字元的位元組級詞元)過度依賴其相鄰詞元,並且在與不熟悉的詞元配對時容易出現問題。
研究重點:
**不完整詞元:**這些詞元包含無法形成可識別字元的孤立位元組,構成位元組級詞彙表中一小部分但很重要的部分。
**不太可能出現的雙元詞:**這些是由兩個不完整詞元組成的特殊組合,利用了它們相互依存的關係來形成完整的字元,但實際上不太可能在訓練資料中出現。
**幻覺:**作者使用「幻覺」一詞來指模型產生與輸入提示不符或無意義的輸出。
研究結果:
研究發現,與由完整詞元形成的雙元詞相比,不太可能出現的雙元詞更容易在多個大型語言模型(LLM)中產生幻覺。
即使組成不太可能出現的雙元詞的詞元經過良好的訓練,這種現象仍然存在,這表明問題不在於詞元訓練不足,而在於不完整詞元的本質。
使用替代分詞方法(預先分割以避免跨字元邊界分詞)可以顯著減少幻覺,這支持了不完整詞元是造成幻覺原因的假設。
研究意義:
這項研究強調了在自然語言處理中廣泛使用的位元組級 BPE 分詞器的一個潛在弱點。結果表明,即使訓練良好的模型也可能容易受到這些不完整詞元產生的幻覺影響。
未來研究方向:
需要進一步研究以全面了解不完整詞元對模型行為的影響,超越詞組級幻覺,並探討更廣泛的潛在危害。
研究替代分詞方法或修改現有方法以減輕或消除不完整詞元帶來的問題至關重要。
統計資料
Llama3.1 模型中,使用不太可能出現的雙元詞的幻覺發生率為 43%,而使用基準雙元詞的幻覺發生率為 0%。
Exaone 模型中,使用不太可能出現的雙元詞的幻覺發生率為 79%,而使用基準雙元詞的幻覺發生率為 26%。
Qwen2.5 模型中,使用不太可能出現的雙元詞的幻覺發生率為 38%,而使用基準雙元詞的幻覺發生率為 2%。
Mistral-Nemo 模型中,使用不太可能出現的雙元詞的幻覺發生率為 73%,而使用基準雙元詞的幻覺發生率為 0%。
Command-R 模型中,使用不太可能出現的雙元詞的幻覺發生率為 56%,而使用基準雙元詞的幻覺發生率為 9%。
使用替代分詞方法後,Llama 3.1、Exaone、Qwen2.5 和 Mistral-Nemo 模型的幻覺發生率分別降低了 93%、34%、63% 和 98%。