本論文は、無限次元関数クラスに定義された minimax 最適化問題を研究している。特に、過パラメータ化された2層ニューラルネットワーククラスに関数を制限し、(i) グラジエント降下-上昇法の収束性と(ii) ニューラルネットワークの表現学習を分析している。
まず、条件付き期待値を通じて関数方程式を推定する adversarial 推定から得られる minimax 最適化問題を考える。この問題に対して、平均場レジームにおける最適化ダイナミクスの連続時間極限と無限幅極限を考慮することで収束性を示す。この極限では、グラジエント降下-上昇法がパラメータ空間上の確率分布に関するワッサーシュテイン勾配流に対応する。我々は、ワッサーシュテイン勾配流が O(1/T + 1/α) の亜線形収束率で停留点に収束し、さらに正則化項が強凸のとき、関数方程式の解にも収束することを示す。表現学習の観点では、ニューラルネットワークによって誘導される特徴表現がその初期値から O(1/α) の大きさでずれることを示す。
最後に、政策評価、非parametric 操作変数回帰、資産価格設定などの具体的な例に我々の一般的な結果を適用する。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies