Core Concepts
다중 모달 대규모 언어 모델(MLLM)은 다양한 멀티모달 작업에서 괄목할만한 성과를 보이고 있지만, 시각 콘텐츠와 일치하지 않는 출력을 생성하는 환각 문제에 직면해 있다. 이는 실제 응용 분야에 배치하는 데 상당한 장애물이 되며 신뢰성에 대한 우려를 야기한다.
Abstract
이 논문은 다중 모달 대규모 언어 모델(MLLM)의 환각 현상에 대한 종합적인 분석을 제공한다.
데이터 측면에서 환각의 원인은 데이터 양, 데이터 품질(노이즈, 다양성 부족, 상세 설명), 통계적 편향(자주 등장하는 객체, 객체 공동 발생)에서 비롯될 수 있다.
모델 측면에서는 약한 비전 모델, 언어 모델의 편향된 지식, 약한 정렬 인터페이스가 환각을 유발할 수 있다.
학습 측면에서는 토큰 수준의 손실 함수, RLHF 단계의 부재 등이 문제가 될 수 있다.
추론 단계에서는 시각 주의력 감소로 인해 환각이 발생할 수 있다.
이 논문은 또한 환각을 평가하기 위한 다양한 메트릭과 벤치마크를 소개하고, 환각을 완화하기 위한 최신 접근 방식을 자세히 설명한다.
마지막으로 현재 과제와 향후 연구 방향을 제시한다.
Stats
데이터 양이 부족하면 강건한 다중 모달 정렬을 어렵게 만들어 환각을 유발할 수 있다.
노이즈가 있거나 다양성이 부족한 데이터는 환각의 원인이 될 수 있다.
자주 등장하는 객체나 객체 공동 발생에 대한 통계적 편향은 환각을 유발할 수 있다.
Quotes
"MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination, which poses substantial obstacles to their practical deployment and raises concerns regarding their reliability in real-world applications."
"Through our thorough and in-depth review, we contribute to the ongoing dialogue on enhancing the robustness and reliability of MLLMs, providing valuable insights and resources for researchers and practitioners alike."