대규모 언어 모델(LLM)의 일반화 가능하고 세부적인 의미를 활용하여 다양한 거리의 인간-객체 쌍을 효과적으로 모델링하고 인식할 수 있는 새로운 HOI 탐지 프레임워크를 제안한다.
합성 캡션을 활용하여 기존 및 새로운 객체에 대한 풍부한 설명을 제공하고, 이를 쌍곡 기하학 기반의 계층적 시각-언어 학습을 통해 효과적으로 학습함으로써 오픈 월드 탐지 성능을 향상시킨다.
Lipsum-FT는 비전-언어 모델의 파인튜닝 과정에서 언어 모델 출력을 활용하여 제로샷 모델과의 연결을 유지함으로써 분포 변화에 강건한 성능을 달성한다.