핵심 개념
시각적 명령어 조정으로 인해 발생하는 다중 모달 언어 모델의 언어 이해 능력 저하 문제를 해결하기 위해 소규모의 선호도 데이터셋과 직접 선호도 최적화(DPO) 기법을 활용한 결과, 언어 및 시각적 작업 모두에서 성능 향상을 달성했다.
초록
다중 모달 언어 모델의 시각적 명령어 조정 성능 저하 문제 해결
본 연구는 시각적 명령어 조정으로 인해 발생하는 다중 모달 대규모 언어 모델(MLLM)의 언어 이해 능력 저하 문제를 해결하는 것을 목표로 한다.
연구진은 LLaVA-1.5-13B 모델을 기반으로 5,000개의 이미지-텍스트 쌍으로 구성된 소규모 VQA 선호도 데이터셋을 구축하고, Gemini 모델을 활용하여 답변의 다섯 가지 품질 지표(유용성, 정확성, 일관성, 복잡성, 간결성)에 대한 세분화된 주석을 생성했다. 이후 지도 학습 미세 조정, 거부 샘플링, 직접 선호도 최적화(DPO), SteerLM 알고리즘을 비교 분석하여 언어 모델의 명령어 준수 능력과 시각적 명령어 성능을 평가했다.