מושגי ליבה
本稿では、従来の活性化関数よりも高い表現力を持つ新しい活性化関数「PolyCom」を提案し、大規模言語モデル(LLM)の学習効率と性能を大幅に向上させることを示した。
תקציר
大規模言語モデルの性能向上を促進する多項式合成活性化関数:論文要約
本稿では、深層学習、特に大規模言語モデル(LLM)における活性化関数の表現力に着目し、従来の活性化関数の限界を克服する新しい活性化関数「PolyCom」を提案しています。
Transformer をベースとしたLLMは、自然言語処理において目覚ましい成果を上げています。LLMの性能は、データ内の複雑な関係性を捉える活性化関数に大きく依存しますが、従来一般的に用いられてきたReLUやGELUなどの活性化関数では、複雑な高次相互作用をモデル化する能力に限界がありました。
本稿では、多項式と他の関数との合成を用いることで、より複雑なパターンをモデル化できる新しい活性化関数「PolyCom」を提案しています。PolyComは、ReLU関数を用いたPolyReLUと、正規化を用いたPolyNormの二つのバリエーションがあります。