核心概念
본 논문에서는 자연어 명령을 통해 로봇이 실내 환경을 탐색할 때 발생하는 위치 모호성 문제를 해결하기 위해 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용한 2단계 매핑 프레임워크를 제안합니다.
摘要
로봇 내비게이션을 위한 비전-언어 모델을 활용한 대화에서의 위치 모호성 해결
본 연구는 자연어 명령을 통해 로봇에게 작업을 지시할 때 발생하는 위치 모호성 문제를 해결하는 것을 목표로 합니다. 예를 들어, "컵을 가져와"와 같은 명령은 여러 개의 컵이 있을 경우 로봇에게 혼란을 야기할 수 있습니다.
본 논문에서는 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용한 2단계 매핑 프레임워크를 제안합니다.
1단계 매핑: 객체-LiDAR 맵
로봇은 LiDAR 센서를 사용하여 주변 환경을 스캔하고 3D 맵을 생성합니다.
동시에, RGB-D 카메라로 촬영한 이미지에서 객체 감지 모델(YOLO)을 사용하여 객체를 식별하고 각 객체에 고유 ID를 할당합니다.
SAM(Segmentation Anything Model)을 사용하여 객체의 마스크를 추출하고, 이를 통해 객체의 위치를 LiDAR 맵에 매핑합니다.
2단계 매핑: 언어-객체
사용자의 자연어 명령을 LLM으로 분석하여 작업의 시간, 위치, 대상 객체 및 필요한 동작 정보를 추출합니다.
위치 정보에 모호성이 있는 경우, VLM을 사용하여 사용자와 추가 대화를 통해 명확히 합니다.
VLM은 사용자의 대화와 로봇이 촬영한 이미지를 입력으로 받아, 대화에서 언급된 객체의 위치를 이미지 내에서 식별합니다.
이때, 객체의 경계 상자와 ID 정보를 이미지에 함께 제공하여 VLM의 위치 모호성 해결 능력을 향상시킵니다.