本文提出了一種名為StochCA的全新微調方法,專門針對Transformer架構設計。該方法修改了Transformer的自注意力機制,以選擇性地利用預訓練模型的知識進行微調。
具體來說,在每個注意力層中,模型會根據預定義的概率,隨機選擇進行自注意力或跨注意力。如果選擇跨注意力,則使用目標模型的查詢向量,以及預訓練模型對應層的鍵和值。通過這種方式,目標模型的查詢向量和多層感知機層被微調,以有效利用預訓練模型的有價值知識來解決目標任務。
為了驗證StochCA的有效性,我們在轉移學習和領域泛化兩個實驗設置中進行了廣泛的實驗。實驗結果表明,StochCA在這兩個領域都優於最先進的方法。此外,我們還展示了StochCA可以與現有方法相互補充,進一步提高性能。
通過分析目標模型和預訓練模型的查詢、鍵和值向量之間的餘弦相似度,我們證明了StochCA能夠有選擇性地利用預訓練模型的有價值知識。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor