핵심 개념
대규모 언어 모델(LLM)의 일반화 가능하고 세부적인 의미를 활용하여 다양한 거리의 인간-객체 쌍을 효과적으로 모델링하고 인식할 수 있는 새로운 HOI 탐지 프레임워크를 제안한다.
초록
이 논문은 개방형 어휘 인간-객체 상호작용(HOI) 탐지 문제를 다룬다. 기존 방법들은 단일 수준의 특징 맵을 사용하여 다양한 거리의 HOI를 모델링하므로 성능이 저하되는 문제가 있었다. 또한 이들은 카테고리 이름만을 활용하여 상호작용 개념을 이해하므로 희귀하고 잘 표현되지 않는 개념을 포착하는 데 어려움이 있었다.
이 논문에서는 다음과 같은 두 가지 핵심 기여를 제안한다:
- 다중 수준의 특징 맵을 활용하여 다양한 거리의 HOI를 효과적으로 모델링한다. 낮은 수준의 특징 맵은 가까운 거리의 HOI를, 높은 수준의 특징 맵은 먼 거리의 HOI를 모델링하도록 유도한다.
- 대규모 언어 모델(LLM)을 활용하여 인간 신체 부위의 일반화 가능하고 세부적인 의미를 생성하고, 이를 상호작용 인식에 활용한다. 이를 통해 다양한 상호작용 개념 간의 연관성을 효과적으로 포착할 수 있다.
실험 결과, 제안 방법은 SWIG-HOI와 HICO-DET 데이터셋에서 최신 기술 대비 우수한 성능을 보였다.
통계
인간-객체 쌍의 거리가 멀수록 기존 방법(THID)의 성능이 크게 저하된다.
신체 부위 설명을 활용하면 다양한 동작 간 인간 자세의 상관관계를 더 잘 포착할 수 있다.
인용구
"이전 방법(THID)은 개방형 어휘 설정에서 거리가 더 큰 HOI에 대해 심각한 성능 저하를 겪는다."
"신체 부위 설명은 카테고리 이름에 비해 다양한 동작 간 인간 자세의 상관관계를 더 잘 인식할 수 있다."