核心概念
本文提出了一種名為 Cog Attention 的新型注意力機制,透過賦予注意力權重負值來增強模型的表達能力,並探討其背後的機制和應用。
本文介紹了一種新穎的注意力機制,稱為 Cog Attention,它允許注意力權重為負值,從而增強模型的表達能力。與傳統的 softmax 注意力機制不同,Cog Attention 能夠更靈活地處理上下文資訊,並減輕表徵崩潰的問題。
機制解釋
Cog Attention 的優勢源於兩個關鍵因素:
功能轉移: Cog Attention 將刪除和複製詞彙的功能從靜態的 OV 矩陣轉移到動態的 QK 內積,使 OV 矩陣能夠更專注於資訊的精煉或修改。透過賦予詞彙負值、正值或接近零的注意力權重,注意力頭可以同時執行刪除、複製或保留詞彙的操作,從而使單個注意力頭變得更加靈活和具有表達力。
減輕表徵崩潰: Cog Attention 提高了模型對表徵崩潰的魯棒性。表徵崩潰是指在深度 Transformer 模型中,序列後期位置的表徵變得同質化的現象。負權重減少了從早期詞彙到後期詞彙的有效資訊路徑,從而減輕了過度壓縮,進而緩解了表徵崩潰問題。
實驗結果
作者將 Cog Attention 應用於語言模型和圖像生成任務中,並取得了比傳統 softmax 注意力機制更好的性能。
語言模型: 在 RedPajama 資料集上訓練的解碼器 Cogformer 語言模型在多項語言理解任務中,包括 ARC、PIQA、SST-2、MNLI、MRPC、QQP 和 RTE,都取得了比相同規模的 Transformer 模型更高的準確率。
圖像生成: 使用 Cog Attention 的 U-ViT 擴散模型 (U-ViC) 在 CIFAR-10 資料集上的無條件圖像生成和 MS-COCO 資料集上的文本到圖像生成任務中,都取得了比使用 softmax 注意力的 U-ViT 模型更低的 FID 分數,表明其生成圖像的品質更高。
討論
收斂性: 作者發現,在深度 Cogformer 模型中,保留第一層和最後一層的 softmax 注意力有助於維持與傳統 Transformer 模型相同的收斂速度。
注意力模式: Cog Attention 比 softmax 注意力產生更多樣化的注意力模式,並減少了注意力匯聚現象,這可能有助於提高模型的泛化能力和上下文感知能力。
時間成本: 由於額外的絕對值運算和乘法運算,Cogformer 的訓練時間成本略高於 Transformer。
總結
Cog Attention 是一種新穎且有效的注意力機制,它透過引入負權重來增強模型的表達能力。實驗結果表明,Cog Attention 在語言模型和圖像生成任務中都能夠提高模型的性能。
統計資料
Cogformer 語言模型包含 1.41 億個參數,並在包含 1000 億個詞彙的 RedPajama 資料集上進行訓練。
U-ViC 和 U-ViT 模型都包含 4400 萬個參數,並分別在 CIFAR-10 和 MS-COCO 資料集上進行訓練。