Core Concepts
異なるアーキテクチャ間の重みを直接転移することで、低コスト推論トランスフォーマーモデルの事前学習コストを大幅に削減できる。
Abstract
本研究では、異なるアーキテクチャ間の重み転移手法「Cross-Architecture Transfer Learning (XATL)」を提案している。XATL では、既存の自己注意ベースのトランスフォーマーモデルから、レイヤーノーム、MLP、入出力埋め込みなどの共通コンポーネントの重みを直接転移することで、低コスト推論(LCI)アーキテクチャの事前学習コストを大幅に削減できる。
実験の結果、XATL を用いることで、同じ計算コストで2.6%高い性能を達成できることが示された。また、XATL を用いることで、同等の性能を達成するのに必要な計算コストを2.5倍削減できることが分かった。特に、注意機構とSSMブロックを組み合わせたハイブリッドモデルで顕著な効果が見られた。
XATL は、LCIモデルの事前学習コストを大幅に削減し、より効率的な言語モデルの開発を可能にする重要な手法である。
Stats
同じ計算コストで2.6%高い性能を達成できる
同等の性能を達成するのに必要な計算コストを2.5倍削減できる