이 논문은 다중 모달 대형 언어 모델(MLLM)의 시각적 환각 문제를 다룬다. 시각적 환각은 MLLM이 제공된 이미지와 다른 내용을 생성하는 문제이다.
저자들은 MLLM이 시각적 환각 상황에서도 정확한 시각적 단서를 인지하지만 때로는 잘못된 내용을 생성한다는 것을 발견했다. 이를 바탕으로 저자들은 Pensieve라는 새로운 접근법을 제안했다.
Pensieve는 MLLM이 테스트 이미지와 유사한 참조 이미지를 회고하고 비교하도록 한다. 이를 통해 MLLM은 정확한 시각적 단서를 확인하고 잘못된 내용을 완화할 수 있다.
실험 결과, Pensieve는 이미지 캡셔닝과 시각적 질문 답변 작업에서 기존 방법들보다 우수한 성능을 보였다. 또한 Pensieve는 MLLM이 이미지의 세부 사항을 식별하고 설명의 구체성을 높이는 데 도움이 되었다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies