대규모 언어 모델의 압축 기술은 계산 비용을 줄이는 데 도움이 되지만, 작업별 성능에 대한 영향을 면밀히 평가해야 한다. 퍼플렉서티만으로는 압축의 영향을 충분히 포착할 수 없으며, Jensen-Shannon 발산과 같은 보다 포괄적인 지표가 필요하다. 또한 작업별 보정 데이터 선택이 압축된 모델의 성능에 중요한 역할을 한다.
본 연구는 대규모 언어 모델(LLM)의 메모리 사용량과 계산 요구사항을 줄이면서도 모델 성능을 유지할 수 있는 훈련 없는 압축 기법인 활성화 인식 특이값 분해(ASVD)와 민감도 기반 절단 계수 탐색(STRS) 기법을 제안한다.
본 논문에서는 제한된 리소스를 가진 기기에서도 대규모 언어 모델(LLM)을 효율적으로 배포하고, 계산 비용을 절감하며, 대규모 AI 인프라의 환경적 영향을 완화하기 위한 핵심 기술인 LLM 압축, 특히 가중치 양자화에 대한 포괄적인 분석을 제공합니다.
대규모 언어 모델(LLM)의 효율적인 추론을 위해 KV 캐시와 히든 스테이트의 불확실성을 측정하여 압축률을 조정하는 새로운 방법인 UNComp를 제안합니다.
TensorGPT는 텐서 트레인 분해를 사용하여 대규모 언어 모델(LLM)의 임베딩 레이어를 효율적으로 압축하는 기술로, 특히 저사양 기기에서 LLM 활용을 가능하게 합니다.
대규모 언어 모델(LLM)의 메모리 사용량을 줄이기 위해 레이어 간 파라미터 공유를 활용한 SVD 기반 압축 기법인 기반 공유(Basis Sharing)를 제안하며, 이는 다양한 LLM에서 최첨단 성능을 달성한다.
대규모 언어 모델(LLM)의 성능 저하를 최소화하면서 효율성을 극대화하기 위해 신경망 아키텍처 검색(NAS)을 활용한 구조적 가지치기 기법을 제시합니다.
LLMC는 다양한 양자화 알고리즘, 모델 및 하드웨어를 통합하여 LLM 압축을 위한 사용자 친화적이고 플러그 앤 플레이 방식의 툴킷을 제공하며, 이를 통해 사용자는 요구 사항에 가장 적합한 옵션을 자유롭게 선택할 수 있습니다.
SLiM은 LLM의 메모리 효율성과 정확도 사이의 균형을 맞추기 위해 고안된 새로운 일회성 양자화 희소 + 저랭크 근사 기법으로, 대칭 양자화, 희소성 및 saliency-based 저랭크 어댑터를 활용하여 경쟁력 있는 성능을 유지하면서 메모리 및 계산 비용을 크게 줄입니다.
본 논문에서는 기존 구조 가지치기 방법의 구조적 의존성을 탈피하여 유연성을 크게 향상시킨 차원 독립적 구조 가지치기 방법인 DISP-LLM을 제안하여 대규모 언어 모델의 크기를 효과적으로 줄이고 더 높은 성능을 달성했습니다.