この研究論文では、大規模言語モデル(LLM)のメモリサイズを削減するための新しい量子化手法が提案されています。従来の量子化手法では、モデルのすべてのレイヤーを単一のビット精度に量子化していましたが、この論文では、レイヤーの重要度に応じて異なるビット精度で量子化を行う手法が提案されています。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Razvan-Gabri... alle arxiv.org 10-29-2024
https://arxiv.org/pdf/2406.17415.pdfDomande più approfondite