Core Concepts
양자화로 인한 출력 오류를 직접 최소화하기 위해 편향 보상을 제안하며, 이는 기존 방식과 달리 볼록 최적화 문제로 해결할 수 있어 최적의 편향 벡터를 효율적으로 구할 수 있다.
Abstract
이 논문은 양자화로 인한 출력 오류를 최소화하기 위해 편향 보상(Bias Compensation, BC)을 제안한다. 기존 방식들은 양자화 과정을 최적화하는 데 초점을 맞추었지만, 이는 비볼록 문제라 해결이 어려웠다.
BC는 양자화된 출력에 편향 벡터를 더해 출력 오류를 직접 최소화한다. 이를 통해 볼록 최적화 문제로 해결할 수 있어 최적의 편향 벡터를 효율적으로 구할 수 있다. 또한 BC는 기존 양자화기와 쉽게 결합할 수 있어 초저정밀 양자화를 가능하게 한다.
실험 결과, BC는 비전 트랜스포머 모델과 대규모 언어 모델에서 양자화 출력 오류를 크게 줄이고 모델 성능을 크게 향상시켰다. 특히 ViT-B*에 4비트 PTQ4ViT를 적용할 때 정확도를 36.89% 높였고, OPT-350M에 3비트 GPTQ를 적용할 때 퍼플렉서티를 5.97 낮췄다.
Stats
양자화로 인한 출력 오류 Ni+1은 NXi, NWi의 함수이다: Ni+1 = NXiNWi - NXiWi - XiNWi
편향 보상 후 출력 오류 li+1은 Bi+1에 대한 볼록 함수이다: li+1 = Σ||Ni+1(j) - Bi+1||2^2
Quotes
"양자화는 메모리 사용량과 계산 강도를 줄이는 유망한 방법이지만, 종종 모델 배포를 방해하는 상당한 출력 오류를 초래한다."
"우리는 BC가 볼록 최적화 문제라는 것을 증명했고, 미세 조정 없이도 최적의 편향 벡터를 얻을 수 있다는 것을 보였다."