Conceptos Básicos
大規模言語モデル(LLM)のメモリ容量と帯域幅の制約に対処するため、高密度重み領域とFP高精度領域のアラインメントを重視した、事後訓練重みのみ量子化手法DAQが提案された。
Resumen
DAQ: 大規模言語モデル向け密度重視の事後訓練重みのみ量子化手法
Luo, Y., & Chen, L. (2024). DAQ: Density-Aware Post-Training Weight-Only Quantization For LLMs. arXiv preprint arXiv:2410.12187v1.
本研究は、大規模言語モデル (LLM) の推論時に発生するメモリ容量とメモリ帯域幅のボトルネックを軽減するため、モデルの性能を維持しながら重みの量子化ビット数を削減できる、事後訓練量子化手法の提案を目的とする。