이 논문은 양자화로 인한 출력 오류를 최소화하기 위해 편향 보상(Bias Compensation, BC)을 제안한다. 기존 방식들은 양자화 과정을 최적화하는 데 초점을 맞추었지만, 이는 비볼록 문제라 해결이 어려웠다.
BC는 양자화된 출력에 편향 벡터를 더해 출력 오류를 직접 최소화한다. 이를 통해 볼록 최적화 문제로 해결할 수 있어 최적의 편향 벡터를 효율적으로 구할 수 있다. 또한 BC는 기존 양자화기와 쉽게 결합할 수 있어 초저정밀 양자화를 가능하게 한다.
실험 결과, BC는 비전 트랜스포머 모델과 대규모 언어 모델에서 양자화 출력 오류를 크게 줄이고 모델 성능을 크게 향상시켰다. 특히 ViT-B*에 4비트 PTQ4ViT를 적용할 때 정확도를 36.89% 높였고, OPT-350M에 3비트 GPTQ를 적용할 때 퍼플렉서티를 5.97 낮췄다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문