이 논문은 비전-언어 모델(VLM)과 능동적 인지(Active Perception)를 결합한 AP-VLM 프레임워크를 제안한다. AP-VLM은 로봇 조작기에 장착된 카메라를 통해 환경을 관찰하고, VLM의 추론 능력을 활용하여 주어진 질문에 대한 답변을 찾는다.
환경에 대한 이해가 부족할 경우, AP-VLM은 3D 가상 격자를 활용하여 최적의 관찰 위치와 방향을 선택하고 로봇을 이동시켜 추가 정보를 수집한다. 이 과정을 반복하여 VLM이 질문에 대한 확신 있는 답변을 제공할 때까지 진행한다.
실험 결과, AP-VLM은 고정된 카메라 위치만을 사용하는 기존 방식에 비해 복잡한 환경에서 더 높은 성공률을 보였다. 특히 3D 격자와 방향 조정 기능을 활용한 모델이 가장 우수한 성능을 나타냈다. 이를 통해 비전-언어 모델과 능동적 인지의 결합이 로봇 시스템의 환경 이해 및 작업 수행 능력을 향상시킬 수 있음을 확인하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문