이 논문은 다중 모달 대형 언어 모델(MLLM)의 단일 모달 편향 문제를 다룹니다. MLLM은 언어 편향과 시각 편향에 과도하게 의존하여 복잡한 다중 모달 과제에서 잘못된 답변을 생성합니다.
먼저, 저자들은 시각 질문 답변(VQA) 문제에 대한 인과 관계 분석 프레임워크를 제안합니다. 이 프레임워크를 통해 편향의 인과 효과를 정량화할 수 있습니다.
다음으로, 저자들은 편향을 극복하기 위한 새로운 데이터셋 MORE를 구축합니다. MORE는 다중 모달 추론과 단일 모달 편향 평가를 요구하는 12,000개의 VQA 인스턴스로 구성됩니다.
마지막으로, 저자들은 두 가지 전략을 제안하여 MLLM의 단일 모달 편향을 완화하고 추론 능력을 향상시킵니다. 첫 번째는 제한된 접근 MLLM을 위한 Decompose-Verify-Answer(DeVA) 프레임워크이고, 두 번째는 오픈 소스 MLLM의 파인튜닝입니다.
실험 결과는 현재 MLLM이 단일 모달 편향에 취약하며, 제안된 전략이 이를 완화하는 데 효과적임을 보여줍니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Meiqi Chen,Y... alle arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18346.pdfDomande più approfondite