Основні поняття
本文提出了一個理論框架,將語言模型視為專家的組合,並基於此框架提出了先驗感知解碼(PAD)方法,以減少干擾任務的影響。實驗結果表明,PAD在11個模型和4個數據集上的44個任務-模型組合中有41個表現得更好,任務完成比例的中位數增加了40%。這為進一步開發更可靠的語言模型提供了一個有前景的方向。
Анотація
本文提出了一個理論框架,將語言模型視為專家的組合(即幾何混合模型)。在這個框架下,作者提出了先驗感知解碼(PAD)方法,以減少干擾任務的影響。
具體來說:
- 作者假設語言模型的生成分佈受到兩個主要因素的影響:正確的上下文延續分佈和受強先驗影響的分佈。
- 作者提出使用幾何混合模型來表示這兩個因素的相對影響。
- 基於這個模型,作者提出了PAD方法,通過在原始提示和弱化提示的邏輯值之間進行線性外推來減少干擾任務的影響。
- 作者在11個模型和4個數據集上進行了實驗,結果顯示PAD在41/44個任務-模型組合中優於基線,任務完成比例的中位數增加了40%。
這項工作為理解和改善語言模型在面臨干擾任務時的行為提供了一個有前景的理論框架和實用方法。
Статистика
在prompt injection任務中,使用PAD方法後,GPT-2模型的正確完成比例從88.6%提高到93.6%。
在pattern match suppression任務中,使用PAD方法後,Llama-2 13B模型的正確完成比例從4.1%提高到46.5%。
在redefine任務中,使用PAD方法後,Mistral 8x7B模型的正確完成比例從65.4%提高到87.6%。
Цитати
"即使對於看似微不足道的任務,最先進的模型也會在存在非常常見的模式時掙扎。"
"對於某些類型的任務,更大的模型實際上表現更差:類似的模型具有更多參數可能更容易重複常見的誤解並屈服於提示注入攻擊。"