Concepts de base
대형 다중 모달 언어 모델(l-MLLM)의 성능을 유지하면서도 크기와 계산 복잡성을 줄인 경량화 모델(s-MLLM)을 위한 지식 증류 프레임워크 LLaVA-KD를 제안한다.
Résumé
LLaVA-KD: 다중 모달 대형 언어 모델을 증류하는 프레임워크
본 연구 논문에서는 크기가 크고 계산량이 많은 다중 모달 대형 언어 모델(l-MLLM)의 한계를 지적하고, 이를 해결하기 위해 지식 증류 기법을 활용하여 l-MLLM의 성능을 유지하면서도 크기와 계산 복잡성을 줄인 경량화 모델(s-MLLM)을 위한 LLaVA-KD 프레임워크를 제안한다.
본 연구는 l-MLLM의 복잡한 지식을 효과적으로 s-MLLM에 전이하여, 경량화된 모델의 성능을 향상시키는 것을 목표로 한다.
LLaVA-KD 프레임워크
LLaVA-KD는 l-MLLM을 교사 모델로, s-MLLM을 학생 모델로 활용하는 지식 증류 프레임워크로, 시각 인코더, 시각 프로젝터, LLM의 세 가지 주요 구성 요소로 이루어져 있다.
동결된 시각 인코더: 이미지 입력을 받아 시각적 특징을 추출하며, 사전 학습된 SigLIP 모델을 사용한다.
시각 프로젝터: 추출된 시각적 특징을 텍스트 임베딩 공간에 투영하기 위해 GELU 활성화 함수를 갖는 두 개의 MLP 레이어를 사용한다.
대형 언어 모델 (LLM): 시각적 임베딩과 텍스트 임베딩을 결합하여 시각 및 언어 정보를 통합적으로 이해하고 출력을 생성한다.
3단계 훈련 방식
LLaVA-KD는 s-MLLM의 잠재력을 최대한 활용하기 위해 다음과 같은 3단계 훈련 방식을 제안한다.
증류 사전 훈련 (DPT): 시각적 표현과 텍스트 표현의 정렬을 향상시키기 위해 l-MLLM을 사용하여 s-MLLM의 예측을 안내한다. 이 단계에서는 다중 모달 증류(MDist)와 관계 증류(RDist)를 함께 사용한다.
지도 미세 조정 (SFT): s-MLLM에 다중 모달 이해 능력을 부여하기 위해 고품질 대화 데이터셋을 사용하여 모델을 학습한다.
증류 미세 조정 (DFT): SFT 단계 이후, l-MLLM의 능력을 s-MLLM에 효과적으로 전이하기 위해 MDist와 RDist를 다시 한번 사용한다.
MLLM 지향 KD 전략
다중 모달 증류 (MDist): l-MLLM과 s-MLLM의 시각-텍스트 출력 분포 간의 차이를 최소화하기 위해 KLD를 사용한다.
관계 증류 (RDist): 시각적 표현 간의 상관관계를 모델링하는 l-MLLM의 능력을 s-MLLM에 전이하기 위해 시각 토큰 출력에서 자기 상관 행렬을 구성하고, 교사 모델과 학생 모델의 행렬 간 유사성을 최대화한다.