Core Concepts
FLIQSは、再学習を必要とせずに、整数と低精度浮動小数点数の混合精度量子化を自動化する初めての手法である。
Abstract
本論文では、FLoating-Point and Integer Quantization Search (FLIQS)を提案する。FLIQSは、深層ニューラルネットワーク(DNN)の整数と低精度浮動小数点数の混合精度量子化を自動化する初めての手法である。従来の手法は、精度を犠牲にするポスト学習量子化検索や、メモリ使用量が高い微分可能な量子化検索を行っていた。
FLIQSは、強化学習ベースの一回限りの検索手法であり、再学習を必要としない。コサイン entropy 正則化スケジュールを導入することで、学習中の検索の影響を最小限に抑えている。
FLIQSは、畳み込みネットワークやビジョントランスフォーマーモデルに適用され、従来手法を上回る精度と性能のPareto最適なモデルを発見する。特に、FLIQSは初めて低精度浮動小数点数の混合精度検索を行い、従来のFP8モデルを上回る結果を示す。さらに、FLIQSを量子化と ニューラルアーキテクチャ検索に拡張したFLIQNASでは、同等のコストで2.69%のImageNetの精度向上を達成する。
Stats
ResNet-18の4ビット量子化モデルは29 GBOPsで67.31%の精度を達成
ResNet-50の71 GBOPsのHAWQ-V3モデルは74.24%の精度
FLIQS-Sの73 GBOPsのモデルは77.40%の精度を達成
Quotes
"FLIQSは、再学習を必要とせずに、整数と低精度浮動小数点数の混合精度量子化を自動化する初めての手法である。"
"FLIQSは、畳み込みネットワークやビジョントランスフォーマーモデルに適用され、従来手法を上回る精度と性能のPareto最適なモデルを発見する。"
"FLIQSを量子化と ニューラルアーキテクチャ検索に拡張したFLIQNASでは、同等のコストで2.69%のImageNetの精度向上を達成する。"