本論文では、Kashin表現の原理に基づく新しい量子化手法「Kashin量子化」を提案している。Kashin量子化は、任意のデータ構造を2つの因子に分解し、一方の因子は無限ノルムが小さく、他方の因子は直交行列との積で無限ノルムが小さくなるという特性を持つ。この特性を利用して、データ値を少数のピークに集中させることができ、効率的な量子化が可能となる。
提案手法では、Householder反射、離散コサイン変換、バタフライ行列などの構造化直交行列を活用することで、高速なマトリクス-ベクトル積を実現し、メモリ効率と計算速度を向上させている。
Kashin量子化を大規模言語モデルのOPTファミリーに適用し、次単語予測タスクとGLUEベンチマークの下流タスクで評価した結果、従来の量子化手法と比べて同等以上の性能を維持しつつ、データ圧縮を実現できることを示した。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Daniil Merku... ב- arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09737.pdfשאלות מעמיקות