核心概念
提出一種名為StochCA的全新微調方法,可以有效利用預訓練模型的知識來解決目標任務。
摘要
本文提出了一種名為StochCA的全新微調方法,專門針對Transformer架構設計。該方法修改了Transformer的自注意力機制,以選擇性地利用預訓練模型的知識進行微調。
具體來說,在每個注意力層中,模型會根據預定義的概率,隨機選擇進行自注意力或跨注意力。如果選擇跨注意力,則使用目標模型的查詢向量,以及預訓練模型對應層的鍵和值。通過這種方式,目標模型的查詢向量和多層感知機層被微調,以有效利用預訓練模型的有價值知識來解決目標任務。
為了驗證StochCA的有效性,我們在轉移學習和領域泛化兩個實驗設置中進行了廣泛的實驗。實驗結果表明,StochCA在這兩個領域都優於最先進的方法。此外,我們還展示了StochCA可以與現有方法相互補充,進一步提高性能。
通過分析目標模型和預訓練模型的查詢、鍵和值向量之間的餘弦相似度,我們證明了StochCA能夠有選擇性地利用預訓練模型的有價值知識。
統計資料
利用大規模預訓練模型是提高各種目標任務性能的一種常見策略。
直接微調預訓練模型可能無法充分利用預訓練模型中嵌入的知識。
本文提出了一種名為StochCA的新型微調方法,可以有選擇性地利用預訓練模型的知識。
引述
在每個注意力層中,模型會根據預定義的概率,隨機選擇進行自注意力或跨注意力。
通過這種方式,目標模型的查詢向量和多層感知機層被微調,以有效利用預訓練模型的有價值知識來解決目標任務。