Core Concepts
深層ニューラルネットワークの解空間の構造と記憶容量を一般的な活性化関数を用いて分析し、活性化関数の選択が解空間の性質に及ぼす影響を明らかにした。
Abstract
本研究では、全結合2層ニューラルネットワーク(FCM)の解空間の構造と記憶容量を、一般的な活性化関数を用いて解析した。
主な結果は以下の通り:
FCMの記憶容量は、隠れ層の幅が無限大になっても有限値に収束する。これは、符号関数を用いた場合とは異なる。
隠れ層のニューロン間の重みに負の相関が生まれ、重みの分担が起こることを示した。
入力サンプル数が増えると、重みの置換対称性が破れる相転移が起こることを明らかにした。この相転移は、活性化関数によって連続的または不連続的に起こる。
相転移点と記憶容量は、活性化関数の選択に依存することを示した。
数値実験の結果は、理論的に導出された記憶容量よりも小さい値しか実現できないことを示した。これは、最適化アルゴリズムが局所最小値に陥るためと考えられる。
以上の結果は、ニューラルネットワークの設計において、活性化関数の選択や必要なパラメータ数の決定に役立つ知見を提供する。
Stats
記憶容量の上限は、ReLUの場合約2.5、erfの場合約3.8である。
相転移点αPSは、ReLUの場合約0.897、quadratic関数の場合約0.785である。
erfの場合、αspin≈3.949で局所解が現れ、αPS≈4.142で大域解に移行する不連続な相転移が起こる。
Quotes
"深層ニューラルネットワークは驚くべき能力を示すが、その理論的な説明は未だ不完全である。"
"記憶容量は、ニューラルネットワークのパフォーマンスを比較する上で重要な指標の1つである。"
"活性化関数の選択が、解空間の構造と記憶容量に大きな影響を及ぼすことを明らかにした。"