核心概念
시각-LLM의 객체 위치 파악 능력 향상이 시각 질문 답변 등 다양한 시각-언어 작업에서의 성능 향상으로 이어진다.
摘要
이 논문은 시각-LLM(Visual-LLM)의 공간 추론 능력 향상을 다룹니다.
- 현재 SOTA 시각-LLM(BLIP-2, LLaVA 등)은 단순한 좌우 구분 등 기본적인 공간 추론 능력이 부족한 것으로 나타났습니다.
- 이를 해결하기 위해 저자들은 이미지 공간 좌표 기반의 지도 학습 목표를 제안했습니다.
- 최적의 좌표 표현 방식, 데이터 효율적인 지도 학습 목표, 의사 데이터 생성 전략 등을 탐구했습니다.
- 제안 모델인 LocVLM은 시각 질문 답변, 객체 환각 감소, 문맥적 객체 설명 등에서 성능 향상을 보였습니다.
- 14개 데이터셋, 5개 시각-언어 작업에서 성능 향상을 입증했습니다.
统计
단순 좌우 구분 작업에서 기존 모델은 거의 랜덤 수준의 성능을 보였지만, 제안 모델은 69.5%의 정확도를 달성했습니다.
GQA 데이터셋에서 제안 모델은 63.5%의 정확도를 보여 기존 모델 대비 향상된 성능을 보였습니다.
객체 환각 감소 평가에서 제안 모델은 88.3%의 정확도를 달성했습니다.
引用
"현재 SOTA 시각-LLM(BLIP-2, LLaVA 등)은 단순한 좌우 구분 등 기본적인 공간 추론 능력이 부족한 것으로 나타났습니다."
"제안 모델인 LocVLM은 시각 질문 답변, 객체 환각 감소, 문맥적 객체 설명 등에서 성능 향상을 보였습니다."