核心概念
Transformer 架構的大型語言模型在處理資訊時可能存在兩個階段:初始階段著重於從先前詞彙中收集資訊,而後續階段則主要對這些資訊進行內部處理,且在此階段中先前詞彙的具體表徵重要性相對較低。
書目資訊
Ben-Artzy, A., & Schwartz, R. (2024). Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers. arXiv preprint arXiv:2409.03621.
研究目標
本研究旨在探討注意力機制在基於 Transformer 架構的大型語言模型 (LLM) 不同層級中的重要性,並檢驗模型是否以兩階段方式處理資訊:先收集先前詞彙的資訊,然後再進行內部處理。
研究方法
研究人員對四種不同 LLM(Llama2-7B、Mistral-7B、Yi-6B 和 Llemma-7B)進行實驗,並設計三種操控方式來干擾模型對先前詞彙資訊的處理:
噪音注入: 將特定層級中先前詞彙的隱藏狀態替換為隨機向量。
凍結: 將特定層級的隱藏狀態複製到後續所有層級,凍結後續層級對先前詞彙資訊的處理。
資訊注入: 將特定詞彙的隱藏狀態替換為來自不同提示句中其他詞彙的隱藏狀態。
研究人員將這些操控方式應用於四種任務(國家首都問答、數學運算、問答和摘要),並觀察模型在不同操控層級下的效能變化。
主要發現
實驗結果顯示:
所有模型對於凍結操控都表現出驚人的穩健性,在某些情況下,即使凍結模型後半部分的層級,效能也不受影響。
對於噪音注入操控,模型的穩健性較低,但仍呈現出明顯的兩階段處理模式:在特定層級之前,模型效能急劇下降;之後則顯著提升,儘管可能無法達到基準水準。
資訊注入操控的結果進一步支持了兩階段假設:在特定層級之前,模型的輸出會根據注入的資訊改變;之後則不受影響,仍舊根據原始資訊生成輸出。
主要結論
研究結果表明,Transformer 架構的 LLM 在處理資訊時可能存在兩個階段:初始階段著重於從先前詞彙中收集資訊,而後續階段則主要對這些資訊進行內部處理,且在此階段中先前詞彙的具體表徵重要性相對較低。
研究意義
本研究增進了對於 Transformer 架構 LLM 內部運作機制的理解,並為未來研究如何降低 LLM 的計算成本提供了潛在方向,例如:跳過上層的注意力機制計算或減少快取先前詞彙資訊的需求。
研究限制與未來方向
本研究主要探討了特定操控方式對模型效能的影響,未來研究可以進一步探討其他操控方式或更精細的分析方法,以更全面地理解 LLM 中資訊處理的過程。
統計資料
凍結模型後半 50% 的層級在某些任務中效能不受影響。
噪音注入操控在模型最上層 30% 應用時,模型效能與基準水準相符。
資訊注入操控在模型最上層 1/3 應用時,模型輸出不受影響。
在某些任務中,跳過最上層 30% 的注意力機制計算對模型效能影響甚微。