Core Concepts
제1인칭 시점 이미지에서 손과 물체의 상호작용을 이해하고 참조할 수 있는 비전 언어 모델을 제안한다.
Abstract
이 논문은 제1인칭 시점 이미지에서 손과 물체의 상호작용을 이해하고 참조하는 HOI-Ref 태스크를 소개한다. 이를 위해 3.9M개의 질문-답변 쌍으로 구성된 HOI-QA 데이터셋을 구축하였다.
HOI-Ref 태스크는 두 가지 측면을 평가한다:
손과 물체를 공간적으로 참조하고 인식하는 능력 (HO-Ref)
손과 물체 간의 상호작용을 이해하는 능력 (I-Ref)
저자들은 HOI-QA 데이터셋을 활용하여 VLM4HOI라는 통합 비전 언어 모델을 학습하였다. VLM4HOI는 기존 모델들에 비해 손-물체 상호작용 참조 성능을 크게 향상시켰다. 특히 HO-Ref에서 27.9%, I-Ref에서 26.7% 성능 향상을 보였다.
실험 결과 분석을 통해 공간 정보와 데이터셋 선택이 HOI-Ref 성능에 중요한 요소임을 확인하였다. 또한 태스크 식별자(task tag)를 사용하여 질문 유형을 구분하는 것이 도움이 되는 것으로 나타났다.
제안된 HOI-Ref 태스크, HOI-QA 데이터셋, VLM4HOI 모델은 제1인칭 시점 이미지에서의 손-물체 상호작용 이해를 위한 연구를 촉진할 것으로 기대된다.
Stats
제1인칭 시점 이미지에서 왼손이 병을 잡고 있다.
오른손이 뚜껑을 잡고 있다.
사람이 싱크대에서 무언가를 열고 있다.
Quotes
"제1인칭 시점 비디오에서 손과 물체의 상호작용을 이해하는 능력은 로봇 및 증강현실 애플리케이션에 많은 가능성을 열어줍니다."
"우리는 손과 물체의 상호작용을 참조할 수 있는 통합 모델을 탐구합니다."
"HOI-QA 데이터셋은 제1인칭 시점 이미지에서의 손-물체 상호작용 참조를 위한 가장 큰 규모의 노력입니다."