核心概念
본 연구는 영상-언어 모델의 지식을 효과적으로 통합하여 제로샷 인간-객체 상호작용 탐지 성능을 향상시키는 새로운 프레임워크를 제안한다.
摘要
이 논문은 인간-객체 상호작용(HOI) 탐지를 위한 새로운 프레임워크인 KI2HOI를 제안한다. 기존 방법들은 지식 증류를 통해 제한적으로 영상-언어 모델의 지식을 활용했지만, KI2HOI는 영상-언어 모델의 지식을 보다 효과적으로 통합한다.
구체적으로 KI2HOI는 다음과 같은 핵심 구성요소를 포함한다:
- 시각적 특징 추출을 위한 Ho-Pair Encoder: 문맥 정보를 효과적으로 활용하여 강력한 시각적 표현을 생성한다.
- 동사 특징 학습 모듈: 동사 쿼리를 활용하여 상호작용 특징을 명시적으로 학습한다.
- 상호작용 의미 표현 모듈: CLIP 텍스트 임베딩을 활용하여 상호작용 표현을 향상시킨다.
이를 통해 KI2HOI는 기존 방법 대비 제로샷 및 완전 지도 학습 환경에서 우수한 성능을 달성한다.
统计
제로샷 HOI 탐지 실험에서 KI2HOI는 기존 최고 성능 대비 RF-UC 설정에서 23.26%, NF-UC 설정에서 7.91% 향상된 mAP를 달성했다.
완전 지도 학습 실험에서 KI2HOI는 GEN-VLKT 대비 3.01 mAP, HOICLIP 대비 1.14 mAP 향상된 성능을 보였다.
데이터 양 감소에 대한 강건성 실험에서 KI2HOI는 GEN-VLKT 대비 최대 78.41% 더 높은 mAP 향상을 보였다.
引用
"KI2HOI는 영상-언어 모델의 지식을 효과적으로 통합하여 제로샷 인간-객체 상호작용 탐지 성능을 향상시킨다."
"KI2HOI는 동사 쿼리를 활용하여 상호작용 특징을 명시적으로 학습하고, CLIP 텍스트 임베딩을 활용하여 상호작용 표현을 향상시킨다."