核心概念
ニューラルネットワークのパラメータ空間の幾何学的構造を特徴づけるFisher情報行列の推定には、計算コストが高いため、ランダム推定量や対角成分のみを評価する手法が用いられる。これらの推定量の精度とサンプル複雑性は、それぞれの分散に依存する。本研究では、これらの分散の上界を導出し、回帰ネットワークと分類ネットワークに適用する。両推定量の利点と欠点をanalytical及びnumericalな検討に基づいて明らかにする。分散の大きさはパラメータグループによって異なり、Fisher情報行列の推定時には無視できないことが分かる。
要約
本研究では、ニューラルネットワークのパラメータ空間(ニューロマニフォールド)の局所幾何学を特徴づけるFisher情報行列(FIM)の推定に関する問題を扱う。FIMの正確な推定は、ニューラルネットワークの最適化アルゴリズムの設計や、ネットワークの性質の理解に役立つ。
FIMの推定は計算コストが高いため、実践では、ランダム推定量や対角成分のみを評価する手法が用いられる。これらの推定量の精度とサンプル複雑性は、それぞれの分散に依存する。
本研究では、これらの分散の上界を解析的に導出し、回帰ネットワークと分類ネットワークに適用する。その結果、両推定量の利点と欠点を明らかにする。具体的には:
分散の大きさはパラメータグループによって異なり、FIMの推定時には無視できないことが分かった。
回帰ネットワークでは、FIMの対角成分を直接計算できるため、ランダム推定量は不要である。一方、分類ネットワークでは、ランダム推定量の分散が入力xによって変化し、状況に応じて適切な推定量を選択する必要がある。
最後の層のパラメータについては、ランダム推定量よりも、解析的に計算できる推定量の方が精度が高い。
以上より、FIMの推定には、ネットワークの非線形性やパラメータグループの違いを考慮する必要があることが分かった。
統計
ニューラルネットワークの出力yに関する十分統計量tの中心モーメントの上界は以下の通りである:
回帰の場合: λmax(I(h | x)) = 1
分類の場合: λmax(I(h | x)) ≤ min {σmax(x), 1 - ∥σ(x)∥2
2}