Core Concepts
自動微分の前方モードを使用して勾配を計算することで、Frank-Wolfeアルゴリズムが効率的に収束し、メモリ消費を削減します。
Abstract
深層ニューラルネットワークトレーニングにおける勾配計算方法の課題と解決策に焦点を当てた研究。
Frank-WolfeアルゴリズムとProjected Forward Gradientの組み合わせにより、効率的な収束が実現される。
アルゴリズム2は従来手法よりもメモリ効率が高く、数値シミュレーションでもその有用性が示されている。
アルゴリズム3は歴史的なProjected Forward Gradientを平均化することで、収束特性が改善されている。
イントロダクション
ニューラルネットワークトレーニングは高次元性に起因する計算資源とメモリ消費量が大きな課題。
Frank-Wolfeアルゴリズムは直接射影を回避し、計算オーバーヘッドを削減するために使用されている。
前方勾配プロジェクション
Projected Forward Gradientはコスト関数の勾配推定において非常にメモリ効率的であることが示されている。
アルゴリズム比較と収束解析
アルゴリズム2は急速なエラー境界への指数関数的な収束を示す一方、アルゴリズム3は亜線形の収束速度で最適解へ到達する。
Stats
フィードフォワードプロパゲーション中に計算上の多大なコストがかかる(Fig. 1)。
Projected Forward Gradientはバックプロパゲーションや通常のフランク・ウルフ・アルゴリズムよりもメモリ消費量が少ない(Fig. 2)。