이 논문은 다중 모달 대형 언어 모델(MLLM)의 성능 향상을 위한 새로운 접근법을 제안한다. MLLM은 텍스트 기반 대형 언어 모델(LLM)의 발전을 바탕으로 이미지 입력을 활용하여 대화형 응답을 생성할 수 있다. 그러나 MLLM은 사전 학습 데이터의 편향성으로 인해 시각적 입력에 대한 부정확한 응답을 생성하는 문제가 있다.
이 문제를 해결하기 위해 저자들은 MLLM의 편향성을 "선호도"로 간주하고, 강화학습의 선호도 학습 기법을 활용하여 MLLM을 최적화하는 "부트스트랩 선호도 최적화(BPO)" 기법을 제안한다. 구체적으로:
기존 데이터셋의 긍정적 응답을 활용하고, 부정적 응답은 이미지 왜곡 및 LLM 구성 요소를 활용하여 자동으로 생성한다. 이를 통해 MLLM의 사전 학습 편향성을 효과적으로 드러낼 수 있다.
직접 선호도 최적화(DPO) 알고리즘을 활용하여 MLLM을 선호도 데이터셋에 직접 최적화한다. 이는 기존 강화학습 기반 접근법보다 안정적이고 효율적이다.
실험 결과, BPO 기법은 다양한 벤치마크에서 MLLM의 성능을 크게 향상시켰으며, 특히 시각적 오류 감소 측면에서 두드러진 성과를 보였다. 이를 통해 저자들은 MLLM의 시각적 접지 향상을 위한 새로운 방향을 제시하였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究