Alapfogalmak
본 논문에서는 자연어 명령어를 통해 새로운 환경에서 사전 학습 없이도 로봇이 특정 객체를 찾아갈 수 있도록 하는 제로샷 객체 탐색 (L-ZSON) 과제를 위한 새로운 비전 언어 모델인 VLTNet을 제안합니다.
Kivonat
비전-언어 모델 추론을 활용한 제로샷 객체 탐색 연구 논문 요약
Wen, C., Huang, Y., Huang, H., Huang, Y., Yuan, S., Hao, Y., Lin, H., Liu, Y., & Fang, Y. (2024). Zero-shot Object Navigation with Vision-Language Models Reasoning. arXiv preprint arXiv:2410.18570v1.
본 연구는 로봇이 사전에 학습하지 않은 환경에서도 자연어 명령어를 이해하고 목표 객체를 찾아갈 수 있도록 하는 제로샷 객체 탐색 (Zero-shot Object Navigation, ZSON) 성능을 향상시키는 것을 목표로 합니다. 특히, 복잡한 자연어 지시를 처리하고 환경에 대한 심층적인 의미론적 이해를 가능하게 하는 새로운 모델을 제시합니다.