核心概念
僅僅合併模型並不足以實現集體模型智慧,因為模型在專業化過程中,其內部表徵會變得不相容,阻礙了有效的知識整合。
這篇研究論文探討了透過模型合併實現集體模型智慧的限制,並提出了未來發展方向。作者認為,雖然模型合併在理論上很有前景,但目前的技術無法有效地結合專業化模型,因為這些模型在微調過程中會出現表徵分歧。
模型合併的局限性
表徵在微調過程中出現分歧: 隨著模型針對特定任務進行專業化訓練,它們的內部表徵會變得越來越專精於該任務,導致在嘗試將它們合併用於新任務時,表現不佳。
層級之間的表徵不相容: 現有模型合併方法通常會組合來自不同模型中相同深度的特徵。然而,不同深度的層級可能代表不同的功能運算,導致跨層級合併的相容性受限。
未來方向
解決表徵相容性問題: 未來研究應著重於開發促進表徵相似性的方法,例如透過預訓練或微調過程中的調整,或透過設計新的模型架構。
在輸入和輸出空間中路由模型: 與其嘗試合併中間表徵,不如讓模型在共同的空間(例如語言)中運作,並開發能夠根據任務需求動態選擇和組合模型的路由機制。
研究結果的意義
這項研究強調了開發支援相容專業化的模型合併方法的必要性。它為理解模型合併的挑戰提供了寶貴的見解,並為未來研究指明了方向,以實現真正的集體模型智慧。
統計資料
模型在微調過程中,表徵相似性與合併效能之間呈現「U」形曲線關係。
在跨領域任務中,直接微調基礎模型的效能優於路由式模型合併。
模型內部,相鄰層級的表徵相似性較高,而距離較遠的層級相似性則顯著降低。