핵심 개념
현재 컴퓨터 비전 시스템의 능력을 평가하고 새로운 접근 방식을 제안하여 공간 관계 인식을 개선합니다.
초록
인간이 세계를 이해하고 상호 작용하기 위한 공간 관계의 중요성 강조
기존 방법론의 한계와 새로운 "RelatiViT" 아키텍처의 우수성 소개
SpatialSense+ 및 Rel3D 데이터셋을 활용한 실험 결과 분석
다양한 디자인 옵션에 대한 실험 결과 및 비교
Vision Language Models와의 성능 비교 결과 제시
통계
기존 컴퓨터 비전 접근 방식은 공간 관계 인식에서 성능이 낮음
"RelatiViT" 아키텍처가 모든 기존 방법을 능가함
인용구
"이는 기본적인 시각 능력에 대한 첫 번째 시스템으로, 현재까지 명백히 naive한 bbox-only 기준을 능가합니다."
"RelatiViT은 이미지로부터 효과적인 시각적 표현을 추출하여 SRP에 성공적으로 활용합니다."