過剰決定基底を用いた新しい量子化手法「Kashin量子化」を提案し、大規模言語モデルの効率的な圧縮と性能維持を実現する。
注意機構の非線形効果を考慮した上で、Hessian行列の感度情報を活用することで、大規模言語モデルを高精度かつ効率的に量子化することができる。
大規模言語モデルの量子化は、モデルのメモリフットプリントを大幅に削減しつつ、同様のパフォーマンスを維持することができる重要な手法である。