核心概念
대규모 언어 모델 압축 기술은 모델의 성능 저하 없이 계산 및 메모리 요구량을 크게 줄일 수 있지만, 기존의 성능 평가 방식인 perplexity로는 압축된 모델의 실제 능력 변화를 정확히 반영하지 못한다. 따라서 다양한 지식 집약적 작업을 통해 압축된 모델의 진정한 성능을 종합적으로 평가할 필요가 있다.
要約
이 논문은 대규모 언어 모델(LLM) 압축 기술의 실제 성능을 종합적으로 평가하기 위해 LLM-KICK이라는 벤치마크를 제안한다. LLM-KICK은 지식 집약적인 다양한 작업들로 구성되어 있으며, 기존의 압축 기술들이 모델의 성능 저하 없이 압축을 달성한다는 주장을 검증한다.
주요 발견사항은 다음과 같다:
- 대부분의 최신 압축 기법들은 사소한 압축률에서도 심각한 성능 저하를 겪는다.
- 구조화된 N:M 희소성 패턴에서는 어떤 압축 기법도 만족스러운 성능을 보이지 못한다.
- 양자화 기법이 가지치기 기법보다 더 성공적이다.
- 압축된 모델들은 유창하고 일관된 텍스트를 생성할 수 있지만, 지식 기반 질문에 대한 정확한 답변을 생성하지 못한다.
- 동일한 매개변수 수를 가진 작은 밀집 모델이 큰 희소 모델보다 성능이 좋다.
또한 압축된 모델의 문맥 기반 질의응답 및 요약 능력을 평가하였으며, 일부 압축 모델들이 이러한 작업에서 강건한 성능을 보임을 확인하였다.
統計
GPT-175B는 325GB의 GPU 메모리가 필요하며, 최소 5대의 A100(80GB) GPU와 복잡한 병렬 처리 기술이 필요하다.
최신 압축 기법들은 50-60% 희소성과 3-4비트 양자화를 달성하면서도 perplexity 저하가 미미하다고 주장한다.
引用
"Perplexity, even in the case of dense LLMs, has been questioned as an unsatisfactory measure for comparing the true potential of LLMs, despite significant variations in model scales, training strategies, and architecture choices."
"Orthogonal to the recent trend to develop new compression algorithms, our work provides the first attempt to assess the true merits and limitations of existing SoTA LLM compression algorithms, to provide a fair and detailed playground to develop better compression algorithms."