Основные понятия
Post-Training-Quantisierung (PTQ) reduziert den Speicherbedarf und die Rechenleistung von großen Sprachmodellen (LLMs) effektiv.
Статистика
PTQ reduziert den Speicherbedarf von Gewichten, Aktivierungen und KV-Caches.
Gewichts- und KV-Cache-Quantisierung sind für lange Texte empfindlicher als Aktivierungsquantisierung.
Цитаты
"Post-Training-Quantisierung (PTQ) reduziert den Speicherbedarf und die Rechenleistung von großen Sprachmodellen (LLMs) effektiv."