Core Concepts
언어 명령에 따라 다양한 상호작용을 통합적으로 제어할 수 있는 프레임워크를 제안한다.
Abstract
이 논문은 인간-장면 상호작용(HSI)을 위한 통합 프레임워크인 UniHSI를 제안한다. UniHSI는 언어 명령을 입력으로 받아 다양한 상호작용을 통합적으로 제어할 수 있다.
UniHSI의 핵심 구성요소는 다음과 같다:
연쇄 접촉(Chain of Contacts, CoC): 상호작용을 인간 관절-물체 부위 접촉 쌍의 순서로 정의한다. 이를 통해 다양한 상호작용을 통일된 방식으로 표현할 수 있다.
LLM 플래너: 언어 명령을 CoC 형태의 작업 계획으로 변환한다. 대규모 언어 모델(LLM)을 활용하여 언어 입력을 상호작용 계획으로 변환한다.
통합 제어기: CoC 기반 작업 계획을 실행하여 실제 상호작용을 생성한다. 관절 포즈와 물체 정보를 통합적으로 처리하여 다양한 상호작용을 수행할 수 있다.
실험 결과, UniHSI는 언어 명령에 따른 다양한 상호작용을 효과적으로 수행할 수 있으며, 실제 스캔된 장면에서도 우수한 일반화 성능을 보였다. 이는 언어 기반 HSI 시스템의 실용화를 위한 중요한 진전을 나타낸다.
Stats
다양한 상호작용을 통합적으로 제어할 수 있는 언어 기반 HSI 프레임워크를 제안한다.
상호작용을 인간 관절-물체 부위 접촉 쌍의 연쇄로 정의하여 통일된 표현을 가능하게 한다.
LLM을 활용하여 언어 명령을 상호작용 계획으로 변환하고, 통합 제어기를 통해 실제 상호작용을 생성한다.
실험 결과, UniHSI는 다양한 상호작용을 효과적으로 수행할 수 있으며 실제 장면에서도 우수한 일반화 성능을 보였다.
Quotes
"상호작용 자체에는 인간-물체 접촉 영역의 형태로 강력한 선행 정보가 포함되어 있다."
"우리는 상호작용을 인간 관절-물체 부위 접촉 쌍의 순서로 정의하여 다양한 상호작용을 일반화할 수 있는 방법을 제안한다."
"최근 대규모 언어 모델의 발전으로 언어 명령을 상호작용 계획으로 변환하는 것이 가능해졌다."