이 논문은 다중 모달 대형 언어 모델(MLLM)의 시각적 환각 문제를 다룬다. 시각적 환각은 MLLM이 제공된 이미지와 다른 내용을 생성하는 문제이다. 저자들은 MLLM이 시각적 환각 상황에서도 정확한 시각적 단서를 인지하지만 때로는 잘못된 내용을 생성한다는 것을 발견했다.
이를 해결하기 위해 저자들은 Pensieve라는 새로운 접근법을 제안했다. Pensieve는 MLLM이 유사한 이미지를 회고하고 이를 테스트 이미지와 비교하여 정확한 시각적 단서를 확인할 수 있게 한다. 이를 통해 시각적 환각을 완화할 수 있다.
실험 결과, Pensieve는 이미지 캡셔닝과 시각적 질문 답변 작업에서 다른 고급 디코딩 전략보다 우수한 성능을 보였다. 또한 Pensieve는 MLLM이 이미지의 세부 사항을 식별하고 설명의 구체성을 높이는 데 도움이 되었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문