Core Concepts
본 연구는 손에 들고 있는 물체를 식별, 분할 및 추적하는 어려운 과제를 다룹니다. 이는 인간 행동 분할 및 성능 평가 등의 응용 분야에 매우 중요합니다. 제안하는 HOIST-Former 모델은 손과 물체 간의 상호작용을 고려하여 이러한 과제를 해결합니다.
Abstract
이 논문은 손에 들고 있는 물체를 식별, 분할 및 추적하는 어려운 과제를 다룹니다. 이 과제는 심한 가림, 급격한 움직임, 물체가 손에 들리고 내려놓이는 등의 일시적인 특성으로 인해 매우 어렵습니다.
이를 해결하기 위해 저자들은 HOIST-Former라는 새로운 트랜스포머 기반 아키텍처를 개발했습니다. HOIST-Former는 손과 물체의 특징을 상호 풀링하여 손의 위치와 주변 맥락에 따라 손에 들고 있는 물체를 식별, 분할 및 추적할 수 있습니다. 또한 손과 물체가 접촉하는 영역에 초점을 맞추는 접촉 손실을 추가로 적용하여 성능을 향상시켰습니다.
이와 함께 저자들은 HOIST라는 새로운 대규모 실제 환경 비디오 데이터셋을 구축했습니다. HOIST 데이터셋에는 4,228개의 비디오와 약 85,000개의 프레임이 포함되어 있으며, 각 손에 들고 있는 물체에 대한 분할 마스크와 추적 ID가 제공됩니다.
실험 결과, HOIST-Former는 HOIST 데이터셋과 두 개의 추가 공개 데이터셋에서 손에 들고 있는 물체의 분할 및 추적 성능이 우수한 것으로 나타났습니다.
Stats
손과 물체가 접촉하는 영역에 초점을 맞추는 접촉 손실을 적용하면 성능이 향상된다.
HOIST-Former의 성능을 저하시키는 요인은 손-물체 간 주의 메커니즘과 접촉 손실의 제거이다.
Quotes
"HOIST-Former는 손과 물체의 특징을 상호 풀링하여 손의 위치와 주변 맥락에 따라 손에 들고 있는 물체를 식별, 분할 및 추적할 수 있다."
"HOIST 데이터셋에는 4,228개의 비디오와 약 85,000개의 프레임이 포함되어 있으며, 각 손에 들고 있는 물체에 대한 분할 마스크와 추적 ID가 제공된다."