대규모 언어 모델의 가중치 제거 시 그래디언트 정보를 활용하면 기존 방식보다 우수한 성능을 달성할 수 있다.
대규모 언어 모델에서 정방향 Kullback-Leibler (FKL) 발산과 역방향 Kullback-Leibler (RKL) 발산은 동일한 최적화 목표를 공유하며, 충분한 에폭 후 수렴한다. 그러나 실제로는 제한된 에폭 수에서 FKL은 분포의 헤드 부분에, RKL은 테일 부분에 초점을 맞추므로, 이를 고려한 적응형 Kullback-Leibler (AKL) 발산을 제안한다.
본 연구는 대규모 언어 모델의 성능 저하를 최소화하면서도 효율적으로 압축할 수 있는 Cross-Block 양자화 기법을 제안한다. 이를 위해 블록 간 의존성을 고려한 재구성 기반 양자화, 아웃라이어 처리 기법, 그리고 적응형 양자화 기법을 통합적으로 활용한다.
대규모 언어 모델의 느린 추론 속도와 높은 계산 및 메모리 요구사항을 해결하기 위해 지식 증류 기반 양자화 기법을 제안하고, 신호 전파 분석을 통해 취약점을 파악하여 성능을 향상시킴.
LLM Surgeon은 대규모 언어 모델을 효율적으로 압축할 수 있는 일반적인 프레임워크를 제공한다. 이 방법은 모델의 손실 함수 곡률을 정확하게 근사하고 가중치 간의 상관관계를 고려하여 구조화된 압축을 수행할 수 있다.
본 논문은 대규모 언어 모델의 압축 및 가속을 위해 어파인 변환 기반의 양자화 기법을 제안한다. 이를 통해 기존 방식에 비해 양자화 오류를 크게 줄이고, 특히 저비트 양자화에서 우수한 성능을 달성할 수 있다.
대규모 언어 모델 압축 기술은 모델의 성능 저하 없이 계산 및 메모리 요구량을 크게 줄일 수 있지만, 기존의 성능 평가 방식인 perplexity로는 압축된 모델의 실제 능력 변화를 정확히 반영하지 못한다. 따라서 다양한 지식 집약적 작업을 통해 압축된 모델의 진정한 성능을 종합적으로 평가할 필요가 있다.
SVD-LLM은 대규모 언어 모델 압축을 위한 새로운 특이값 분해 기반 방법론으로, 압축 손실을 최소화하는 데이터 화이트닝 기법과 압축 후 모델 파라미터 업데이트 기법을 제안한다.
SVD-LLM은 대규모 언어 모델 압축을 위한 새로운 특이값 분해 기반 방법론으로, 압축 손실을 최소화하는 데이터 화이트닝 기법과 압축 후 모델 파라미터 업데이트 기법을 제안한다.