이 논문은 대규모 언어 모델의 메모리 효율적인 미세 조정 기법인 LISA(Layerwise Importance Sampled AdamW)를 제안한다.
먼저 저자들은 LoRA(Low-Rank Adaptation) 기법을 사용할 때 레이어별 가중치 노름이 크게 편향되는 현상을 관찰했다. 이를 통해 레이어별로 중요도가 다르다는 것을 발견했다.
이를 바탕으로 저자들은 LISA 알고리즘을 제안했다. LISA는 레이어별 중요도에 따라 확률적으로 레이어를 선택하여 업데이트하는 기법이다. 이를 통해 LoRA 대비 성능이 우수하면서도 메모리 사용량이 낮다.
실험 결과, LISA는 다양한 대규모 언어 모델(7B-70B)과 여러 과제(지시 따르기, 수학, 의료 QA 등)에서 LoRA와 전체 파라미터 미세 조정 대비 우수한 성능을 보였다. 특히 대규모 모델인 LLaMA-2-70B에서도 LoRA와 유사하거나 더 나은 성능을 달성했다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies