이 논문은 대규모 언어 모델(LLM)의 실용적인 배포를 가로막는 막대한 계산 및 메모리 요구사항을 해결하기 위한 양자화 기법인 OmniQuant을 소개한다.
OmniQuant은 기존 양자화 기법의 한계를 극복하기 위해 원본 가중치를 고정한 채 학습 가능한 양자화 매개변수를 도입한다. 이를 통해 양자화 과정을 효율적으로 최적화할 수 있다.
OmniQuant의 핵심 구성요소인 학습 가능한 가중치 클리핑(LWC)과 학습 가능한 등가 변환(LET)은 가중치와 활성화 함수를 양자화하기 쉽게 만든다. LWC는 가중치의 극단값을 조절하고, LET는 활성화 함수의 이상치를 해결한다.
블록 단위 양자화 오차 최소화 프레임워크를 통해 OmniQuant은 가중치 전용 및 가중치-활성화 양자화 모두에서 우수한 성능을 달성한다. 실험 결과, OmniQuant은 다양한 양자화 설정(W4A4, W3A16, W2A16 등)에서 기존 방법을 크게 능가한다.
OmniQuant은 단일 A100-40G GPU에서 128개의 샘플만으로 LLaMA-2 모델 패밀리(7B-70B)를 1-16시간 내에 양자화할 수 있어 시간 및 데이터 효율성이 뛰어나다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Wenqi Shao,M... ที่ arxiv.org 03-19-2024
https://arxiv.org/pdf/2308.13137.pdfสอบถามเพิ่มเติม