本稿では、フィードフォワードユニタリー等変ニューラルネットワークにおける活性化関数を、ユニタリー等変性を維持しながらより広範な関数を表現できる単一の汎用的な形式に一般化する。
RePU活性化関数は、層が深くなると値が爆発または消失し、学習が失敗するという問題を抱えており、本稿ではその原因を有効理論の観点から分析し、問題を克服した新しい活性化関数MRePUを提案する。
ヒステリシスを利用した新しい活性化関数HeLUは、勾配消失問題を抑制し、推論時の計算コストを最小限に抑えながら、ReLUを超える性能を実現する。
本稿では、従来の活性化関数よりも高い表現力を持つ新しい活性化関数「PolyCom」を提案し、大規模言語モデル(LLM)の学習効率と性能を大幅に向上させることを示した。
この論文では、従来の固定された活性化関数ではなく、学習可能な行列値活性化関数を導入することで、ニューラルネットワークの柔軟性と性能を向上させることを提案しています。
本稿では、ニューラルネットワークに新しい層やニューロンを追加しても結果を変えない、再帰可能で恒等関数の和となる新しい活性化関数を提案する。
正規化を行わない大規模言語モデルにおいて、従来型のGELUよりもReLUが優れたパフォーマンスを発揮する。これは、GELUが初期層においてエントロピー過負荷を引き起こし、注意機構の表現能力を十分に活用できないためである。