대규모 언어 모델은 자연어 처리 분야뿐만 아니라 다양한 비언어적 도메인에서도 뛰어난 성능을 보여왔다. 그러나 이러한 언어 모델이 실제 최적화 문제에서도 효과적인지에 대해서는 아직 충분히 탐구되지 않았다. 이 연구는 대규모 언어 모델의 최적화 능력을 종합적으로 평가하여 그 실제 잠재력을 밝히고자 한다.
레이어별 중요도를 활용하여 KV 캐시를 두 차원에서 최적화함으로써 메모리 사용량을 크게 줄이고 처리량을 향상시킬 수 있다.
LISA는 대규모 언어 모델의 레이어별 중요도를 고려하여 메모리 효율적으로 모델을 미세 조정하는 기법이다. LISA는 LoRA 대비 성능이 우수하며 메모리 사용량도 낮다.
전문가 혼합 모델의 성능과 추론 효율성 간의 균형을 달성하기 위한 최적의 전문가 수 및 모델 크기 탐구
대규모 언어 모델의 사전 학습 과정에서 다양한 다운스트림 과제에 대한 성능 변화를 분석하여 효율적인 학습 전략을 제시한다.
대규모 언어 모델의 깊은 층을 제거해도 성능 저하가 크지 않으며, 이를 통해 모델의 메모리 및 추론 시간을 크게 줄일 수 있다.
탠덤 트랜스포머 아키텍처는 대규모 언어 모델의 자기회귀적 생성 과정에서 발생하는 비효율성을 해결하기 위해 제안되었다. 이는 작은 자기회귀 모델과 큰 블록 기반 모델을 결합하여 추론 속도를 높이면서도 성능 저하를 최소화한다.
대규모 언어 모델의 자기 주의 메커니즘은 추론 지연의 주요 원인이지만, 시스템 프롬프트의 공유 특성을 활용하여 메모리 사용과 계산 비용을 크게 줄일 수 있다.