Core Concepts
대규모 언어 모델의 저비트 가중치 양자화를 위해 입력 채널 기반 양자화를 통해 아웃라이어 효과를 격리하고, 이를 바탕으로 다양한 가중치 민감도 패턴에 적응할 수 있는 Adaptive Dimensions 프레임워크를 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 효율적인 서빙을 위한 저비트 가중치 양자화 기법을 제안한다. 저자들은 먼저 활성화 아웃라이어와 민감한 가중치 사이의 구조적 관계를 분석하였다. 이를 바탕으로 입력 채널(IC) 기반 양자화를 제안하였는데, 이는 아웃라이어의 영향을 그룹 내부로 격리할 수 있다. 또한 가중치 민감도 패턴이 다양하다는 점에 착안하여, Adaptive Dimensions(AdaDim) 프레임워크를 제안하였다. AdaDim은 IC 및 출력 채널(OC) 양자화 방식을 자동으로 선택하여 적용할 수 있다. 실험 결과, AdaDim을 기존 양자화 기법에 적용하면 다양한 언어 모델링 벤치마크에서 큰 성능 향상을 보였다. 특히 기반 모델에서 최대 4.7%, 지시 튜닝 모델에서 최대 10%의 성능 향상을 달성하였다.
Stats
대규모 언어 모델의 활성화 아웃라이어는 최대 20배 더 큰 크기를 가질 수 있다.
가중치 민감도는 입력 채널과 출력 채널 차원에 따라 다양한 패턴을 보인다.
입력 채널 기반 양자화를 적용한 RTN-ada는 표준 RTN 대비 최대 1.06의 퍼플렉서티 향상을 보였다.
Quotes
"활성화 아웃라이어는 특정 입력 채널에 영향을 미치므로, 이와 유사하게 가중치를 입력 채널 방향으로 그룹화하면 아웃라이어의 영향을 격리할 수 있다."
"가중치 민감도 패턴은 네트워크 깊이에 따라 입력 채널 또는 출력 채널 차원이 우세할 수 있다."
"AdaDim은 입력 채널 및 출력 채널 양자화 방식을 자동으로 선택하여 다양한 가중치 민감도 시나리오에 적응할 수 있다."