Core Concepts
重み疎性と活性疎性は、言語モデルの性能に大きな影響を与えずに、相補的に演算効率を向上させることができる。
Abstract
本研究では、重み疎性と活性疎性の相互作用を詳細に調査しました。
疎な重みと疎な活性を組み合わせたEGRUモデルは、密な重みを持つLSTMモデルと同等の性能を達成できることを示しました。
重み疎性と活性疎性は、演算量の削減に対して独立した効果を持つことが明らかになりました。
重み減衰正則化を調整することで、EGRUモデルの活性疎性を制御できることを発見しました。これにより、ハードウェアの要件に合わせて効率性とパフォーマンスのトレードオフを調整できます。
提案手法は、ニューロモーフィックハードウェアへの実装に適したスパースな言語モデルの設計に役立ちます。
Stats
言語モデルのパープレキシティは、Penn Treebank で56.6、WikiText-2で66.6まで改善された。
重み疎性80%のLSTMモデルでは、Penn Treebankで57.6、WikiText-2で68.0のパープレキシティを達成した。
重み疎性80%のEGRUモデルでは、Penn Treebankで58.0、WikiText-2で69.4のパープレキシティを達成した。
Quotes
"重み疎性と活性疎性は、演算量の削減に対して独立した効果を持つ。"
"重み減衰正則化を調整することで、EGRUモデルの活性疎性を制御できる。"