핵심 개념
시각-언어 모델의 시각적 공간 관계 이해 능력 향상을 위한 새로운 접근 방식 제안
초록
대규모 비전-언어 모델의 일반화 능력은 인상적이지만 세부 이해 능력 부족
시각적 공간 관계 이해를 위한 대안적 접근 방식 제안
LXMERT, GPV, MDETR과 같은 대표적인 VLMs에 대한 접근 방식 비교
공간 관계에 대한 합리적이고 정확한 접근 방식 제시
통계
"ZS"와 "Rand"에서 LXMERT의 성능: 65.6%, 74.1%
LXMERT Fine-tuning 결과: 65.6%, 74.1%
인용구
"우리는 GPV 인코더-디코더 모델의 출력을 사용하여 공간 관계를 예측하는 모델을 제안합니다."
"우리의 접근 방식은 최고의 성능을 보여줍니다."