核心概念
事前学習言語モデルの効率性を高めるために、ニューラルアーキテクチャサーチを用いた構造的プルーニングアプローチを提案する。
要約
本論文では、事前学習言語モデル(PLM)の効率性を高めるために、ニューラルアーキテクチャサーチ(NAS)を用いた構造的プルーニングアプローチを提案している。
PLMは自然言語理解タスクで優れた性能を示すが、大きなモデルサイズのため、実世界のアプリケーションでの推論に課題がある。本研究では、NASを用いて、モデルサイズと一般化性能のトレードオフを最適化する部分ネットワークを見つける。
具体的には以下の手順を踏む:
事前学習モデルをスーパーネットワークとして扱い、重み共有NASアプローチを用いて効率的に微調整する。
複数の部分ネットワーク候補を生成し、パレート最適な部分ネットワークの集合を見つける。
4つの異なる検索空間を提案し、それぞれの特性を分析する。
実験の結果、提案手法は既存の構造的プルーニング手法と比較して優れた性能を示すことが分かった。特に大規模なデータセットでその傾向が強い。また、重み共有NASアプローチは計算コストを大幅に削減できることも示された。
統計
事前学習モデルのパラメータ数は約1億2千万個である。
提案手法により、パラメータ数を最大70%削減できる一方で、性能は90%以上を維持できる。
引用
"事前学習言語モデル(PLM)は自然言語理解タスクで優れた性能を示すが、大きなモデルサイズのため、実世界のアプリケーションでの推論に課題がある。"
"本研究では、NASを用いて、モデルサイズと一般化性能のトレードオフを最適化する部分ネットワークを見つける。"
"実験の結果、提案手法は既存の構造的プルーニング手法と比較して優れた性能を示すことが分かった。特に大規模なデータセットでその傾向が強い。"