Core Concepts
ウィノグラード変換とQuantizationを組み合わせた2PC推論フレームワークEQOを提案し、通信量を大幅に削減しつつ高精度を維持する。
Abstract
本論文では、プライベートCNN推論のための高効率な2PC (Secure Two-Party Computation) フレームワークEQOを提案する。EQOは、ウィノグラード変換とQuantizationを組み合わせることで通信量を大幅に削減する。
具体的には以下の取り組みを行っている:
ウィノグラード変換とQuantizationを組み合わせることで、乗算回数と通信量を同時に削減する。しかし、ナイーブな組み合わせでは通信量の削減効果が限定的であることを観察した。これは、ウィノグラード変換が多くの局所的な加算を導入し、量子化ビット幅の増加と頻繁なビット幅変換を必要とするためである。
プロトコルレベルでは、通信量を最小化するためのグラフ最適化手法を提案する。ネットワークレベルでは、通信量制約下での精度最大化を目的とした感度ベースの混合精度量子化アルゴリズムと、ウィノグラード変換で生じる重みアウトライアを処理するためのビット再重み付けアルゴリズムを開発する。
広範な実験の結果、EQOは従来手法と比較して11.7倍、3.6倍、6.3倍の通信量削減を達成しつつ、1.29%、1.16%、1.29%の精度向上を示した。
Stats
ウィノグラード変換を用いた場合、ResNet-50ブロックの総通信量は16ビット量子化で1.48GBに削減できる。
ウィノグラード変換を用いた場合、ResNet-50ブロックのオンライン通信量は2ビット量子化で0.5GBに削減できる。
ウィノグラード変換では、重みの分布に大きなアウトライアが生じる。各層の(最大値-平均値)/標準偏差の比は4~12の範囲にある。
Quotes
"ウィノグラード変換は局所的な加算を多数導入し、量子化ビット幅の増加と頻繁なビット幅変換を必要とする。"
"ウィノグラード変換では重みの分布にアウトライアが多数生じ、低精度量子化を困難にする。"