本論文では、事前学習言語モデル(PLM)の効率性を高めるために、ニューラルアーキテクチャサーチ(NAS)を用いた構造的プルーニングアプローチを提案している。
PLMは自然言語理解タスクで優れた性能を示すが、大きなモデルサイズのため、実世界のアプリケーションでの推論に課題がある。本研究では、NASを用いて、モデルサイズと一般化性能のトレードオフを最適化する部分ネットワークを見つける。
具体的には以下の手順を踏む:
実験の結果、提案手法は既存の構造的プルーニング手法と比較して優れた性能を示すことが分かった。特に大規模なデータセットでその傾向が強い。また、重み共有NASアプローチは計算コストを大幅に削減できることも示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Aaron Klein,... at arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02267.pdfDeeper Inquiries