本研究では、異なるモデル構造、タスク、モダリティ間の知識移転に焦点を当てている。従来の知識移転手法は、モデル構造や特定のタスク特徴/ラベルの共有を前提としていたため、複雑なモデルタイプやタスクへの適用が限定的であった。
MergeNetは、モデルパラメータ空間の差異を橋渡しすることで、これらの課題を解決する。コアメカニズムはパラメータアダプターで、ソースモデルの低ランクパラメータを照会し、それらをターゲットモデルにマッピングする。MergeNetは両モデルと並行して学習されるため、現在の学習段階に関連する知識を動的に移転・適応できる。
広範な実験により、MergeNetが異種知識移転の課題設定で大幅な性能向上を示すことを実証した。特に、代表的な手法が失敗するような複雑な状況でも有効性を発揮する。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies