核心概念
다중 모달 대형 언어 모델은 단일 모달 편향(언어 편향, 시각 편향)에 과도하게 의존하여 복잡한 다중 모달 과제에서 잘못된 답변을 생성한다. 이를 해결하기 위해 인과 관계 분석 프레임워크를 제안하고, 편향을 극복하기 위한 새로운 데이터셋과 완화 전략을 소개한다.
摘要
이 논문은 다중 모달 대형 언어 모델(MLLM)의 단일 모달 편향 문제를 다룹니다. MLLM은 언어 편향과 시각 편향에 과도하게 의존하여 복잡한 다중 모달 과제에서 잘못된 답변을 생성합니다.
먼저, 저자들은 시각 질문 답변(VQA) 문제에 대한 인과 관계 분석 프레임워크를 제안합니다. 이 프레임워크를 통해 편향의 인과 효과를 정량화할 수 있습니다.
다음으로, 저자들은 편향을 극복하기 위한 새로운 데이터셋 MORE를 구축합니다. MORE는 다중 모달 추론과 단일 모달 편향 평가를 요구하는 12,000개의 VQA 인스턴스로 구성됩니다.
마지막으로, 저자들은 두 가지 전략을 제안하여 MLLM의 단일 모달 편향을 완화하고 추론 능력을 향상시킵니다. 첫 번째는 제한된 접근 MLLM을 위한 Decompose-Verify-Answer(DeVA) 프레임워크이고, 두 번째는 오픈 소스 MLLM의 파인튜닝입니다.
실험 결과는 현재 MLLM이 단일 모달 편향에 취약하며, 제안된 전략이 이를 완화하는 데 효과적임을 보여줍니다.
统计
다음 월드컵은 2022년 FIFA 월드컵으로, 카타르에서 개최될 것입니다.
이 건물의 설계자의 대표적인 건물은 The Shard입니다.
引用
"Recent advancements in Large Language Mod-els (LLMs) have facilitated the development of Multimodal LLMs (MLLMs). Despite their impressive capabilities, MLLMs often suffer from an over-reliance on unimodal biases (e.g., language bias and vision bias), leading to in-correct answers in complex multimodal tasks."
"To investigate this issue, we propose a causal framework to interpret the biases in Visual Question Answering (VQA) problems."