FFN-Wider Transformer Models and Architecture Influence on Language Models
Core Concepts
Pre-trained language models' base capabilities are influenced by architecture, with FFN-Wider Transformers reducing the contribution ratio of the combination function, leading to a decline in base capabilities.
Abstract
プレトレーニング言語モデルの基本的な能力は、アーキテクチャに影響を受け、FFN-Wider Transformersは組み合わせ関数の寄与比率を減少させ、基本的な能力が低下することが分かった。この研究では、CEA(Combination Enhanced Architecture)を提案し、ベースキャパビリティの低下を逆転させることに成功した。また、MoE(Mixture of Experts)アーキテクチャTransformersにも同様の説明とCEAを適用し、基本的な能力を向上させることができた。
How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider Transformer Models
"the actual contribution ratio of the MHA layer (a combination function) is a key factor affecting the model’s base capabilities."
"Controlling the width ratio indeed directly influences the contribution ratio of the combination function."
"The results indicate the base capabilities of the new architecture MoE have indeed improved to some extent."
この研究では、言語モデルの基本的な能力におけるアーキテクチャの影響を探求しています。他のプレトレーニング目標を持つモデルに対しても同様の結果が得られる可能性は存在します。異なるプレトレーニング目標を持つモデルであっても、アーキテクチャが基本的な能力に与える影響は類似する傾向があると考えられます。
例えば、ALBERT(Lan et al., 2020)というモデルでは、パラメータ数が同じでも強い基本的な能力を示すことが知られています。したがって、他のプレトレーニング目標を持つモデルにおいても、アーキテクチャ自体が基本的な能力に及ぼす影響は重要であり、類似した結果が得られる可能性があります。