本論文は、拡散モデル(DM)の重みを1ビットまで圧縮するための新しい手法「BinaryDM」を提案している。
まず、LMBを導入し、2値化された重みの表現能力を大幅に向上させる。LMBは、異なる学習可能なスケーラーを持つ2つの2値基底を適用することで、2値化された重みの表現範囲を大幅に広げる。
次に、LRMを適用し、2値化された拡散モデルの最適化を改善する。LRMは、フル精度の拡散モデルの中間表現を低ランク空間にプロジェクトし、2値化された拡散モデルにその表現を模倣させることで、最適化の方向性を安定化させる。
さらに、段階的な初期化戦略を採用し、2値化された拡散モデルの収束を促進する。
実験の結果、BinaryDMは従来の2値化手法と比べて大幅な精度と効率の向上を達成し、特に超低ビット幅の設定で顕著な性能を発揮することが示された。例えば、CIFAR-10 32x32 DDIMでは、BinaryDMがベースラインを49.04%も上回る精度を達成した。また、LDM-8 on LSUN-Churches 256x256では、BinaryDMがより高ビット幅のSOTA手法を4.63 FID点も上回った。BinaryDMは拡散モデルの2値化手法として初めてのものであり、16.0倍のFLOPS削減と27.1倍のストレージ削減を実現し、エッジデバイスへの展開に大きな可能性を示した。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Xingyu Zheng... klo arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05662.pdfSyvällisempiä Kysymyksiä