Core Concepts
本研究では、深層ニューラルネットワークの学習過程において、任意のp-ノルムに基づく重み減衰手法を提案する。この手法は、従来のL2正則化よりも高い次元の疎な表現を実現し、同時に一般化性能も維持することができる。
Abstract
本研究の主な内容は以下の通りである:
Lp正則化問題を補助変数を導入した最適化問題に等価変換し、その最適解が疎な解を持つことを示した。
任意のp-ノルムに対応する重み減衰手法(pWD)を提案した。pWDは、従来のL2重み減衰を一般化したものであり、数値的な不安定性を回避しつつ、疎な解を得ることができる。
画像分類タスクと言語モデルタスクにおいて、pWDを適用した結果、高い次元の疎な表現を維持しつつ、優れた一般化性能を示すことを実証的に示した。
pWDの性能をさらに向上させるための拡張手法について議論した。具体的には、重み減衰の動的な調整や、Elastic Netのような複合的な正則化手法の導入などが考えられる。
Stats
深層ニューラルネットワークの学習には膨大なリソースが必要となる
畳み込みニューラルネットワークのInception-V4では160億の演算と4300万のパラメータが必要
GPT-4では1.75兆のパラメータが必要
Quotes
"大規模な言語モデルの学習には、数千万ドルもの費用がかかる可能性がある"
"深層学習モデルの学習と推論には膨大なエネルギーコストがかかる"