Core Concepts
モデル並列トレーニングにおいて、活性化関数と勾配の同時圧縮が収束に与える影響を分析し、量子化やTopK圧縮などの圧縮手法の適用可能性を検討した。
Abstract
本研究では、大規模ニューラルネットワークのモデル並列トレーニングにおいて、活性化関数と勾配の同時圧縮が収束に与える影響を分析した。
量子化実験の結果、勾配は活性化関数よりも圧縮に敏感であり、良好な収束のためには勾配の圧縮率を活性化関数よりも低く保つ必要があることが分かった。
TopK圧縮実験では、収束を大きく損なわない最大の圧縮率は10%であり、圧縮を推論時にも適用する必要があることが示された。
エラーフィードバック手法の適用実験では、TopK圧縮と組み合わせた場合でも収束の改善は見られなかったが、圧縮なしの推論でも高い精度を維持できることが分かった。
一方、AQ-SGDとTopK圧縮の組み合わせでは、TopK圧縮率が30%を超えると著しい性能低下が観察された。
Stats
勾配を4ビットまで量子化すると、テストの精度が82.66%まで低下する。
TopK 10%圧縮を適用すると、圧縮なしの推論でも91.87%の精度が得られる。
TopK 10%圧縮とEF21を組み合わせると、圧縮なしの推論でも91.77%の精度が得られる。
AQ-SGDとTopK 10%圧縮を組み合わせると、テストの精度が84.16%まで低下する。
Quotes
"勾配は活性化関数よりも圧縮に敏感であり、良好な収束のためには勾配の圧縮率を活性化関数よりも低く保つ必要がある。"
"TopK 10%圧縮が収束を大きく損なわない最大の圧縮率であり、圧縮を推論時にも適用する必要がある。"
"TopK圧縮とエラーフィードバック手法を組み合わせても収束の改善は見られないが、圧縮なしの推論でも高い精度を維持できる。"