Centrala begrepp
본 연구는 대화형 내비게이션 과제를 해결하기 위해 대화 이해, 시각 이해, 행동 생성 등 다양한 능력을 갖춘 범용 모델 NaviLLM을 제안한다. NaviLLM은 대화 내용과 시각 정보를 통합하여 효과적으로 3D 환경을 탐색하고 사용자 질문에 답변할 수 있다.
Sammanfattning
본 연구는 대화형 내비게이션을 위한 범용 모델 NaviLLM을 제안한다. 기존 연구들은 주로 특정 과제에 특화된 모델을 개발했지만, 이는 일반화 능력이 부족했다. 이에 반해 NaviLLM은 대화 이해, 시각 이해, 행동 생성 등 다양한 능력을 갖추고 있어 다양한 과제를 해결할 수 있다.
NaviLLM의 핵심 아이디어는 대화형 내비게이션 과제를 생성 문제로 변환하는 것이다. 구체적으로 NaviLLM은 과제, 관찰, 히스토리 등의 스키마를 활용하여 다양한 과제를 통일된 형식으로 표현한다. 이를 통해 NaviLLM은 여러 데이터셋의 데이터를 통합하여 학습할 수 있다.
실험 결과, NaviLLM은 CVDN, SOON, ScanQA 벤치마크에서 최신 기술 대비 우수한 성능을 보였다. 또한 R2R, REVERIE 등의 과제에서도 경쟁력 있는 성능을 보였다. 특히 CVDN 과제에서 29%의 큰 성능 향상을 보였다. 더불어 NaviLLM은 보이지 않은 과제에서도 강력한 일반화 능력을 보였다.
Statistik
사용자 대화 기반 내비게이션 과제에서 NaviLLM은 이전 최고 기술 대비 29% 향상된 성능을 보였다.
객체 탐지 과제에서 NaviLLM은 이전 최고 기술 대비 16.04%의 성능 향상을 보였다.
Citat
"NaviLLM은 대화 이해, 시각 이해, 행동 생성 등 다양한 능력을 갖춘 범용 모델이다."
"NaviLLM은 과제, 관찰, 히스토리 등의 스키마를 활용하여 다양한 과제를 통일된 형식으로 표현함으로써 여러 데이터셋의 데이터를 통합하여 학습할 수 있다."