核心概念
MoA 是一種訓練自由的稀疏注意力方法,它透過為不同的注意力頭和輸入長度自動選擇異構的彈性掩碼,在保持與密集模型相當的效能的同時,顯著提升大型語言模型的效率和有效上下文長度。
這篇研究論文提出了一種名為 MoA(混合注意力機制)的新方法,旨在解決大型語言模型 (LLM) 在處理長文本時遇到的效率挑戰,特別是在注意力機制方面。
MoA 提出了一种訓練自由的稀疏注意力方法,其核心概念是根據每個注意力頭和輸入長度的不同特性,自動選擇異構的彈性掩碼。具體來說,MoA 構建了一個包含各種注意力模式及其相對於輸入序列長度的縮放規則的搜索空間。它首先使用基於梯度的分析方法來評估每個注意力位置對預測損失的影響,然後根據分析結果,為每個模型層和注意力頭定制異構的稀疏注意力配置。