이 논문은 로봇 조작을 위한 새로운 다중 모달 지각-계획 프레임워크 RoboMP2를 소개한다. RoboMP2는 Goal-Conditioned Multimodal Perceptor (GCMP)와 Retrieval-Augmented Multimodal Planner (RAMP)로 구성된다.
GCMP는 대형 언어 모델을 활용하여 복잡한 참조 표현을 이해하고 환경 정보를 포착할 수 있다. 이를 통해 기존 지각기가 어려워하던 복잡한 참조 객체 인식 문제를 해결한다.
RAMP는 코스 검색기와 파인 재순위화기를 통해 가장 관련성 높은 정책을 적응적으로 선택하여 계획을 생성한다. 이를 통해 기존 접근법의 제한적인 일반화 능력을 개선한다.
실험 결과, RoboMP2는 VIMA 벤치마크와 실제 과제에서 기존 방법보다 약 10% 향상된 성능을 보였다. 이는 RoboMP2가 복잡한 참조 이해와 다중 모달 정보 활용을 통해 로봇의 지각 및 계획 능력을 크게 향상시켰음을 보여준다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Qi Lv,Hao Li... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04929.pdfDybere Forespørgsler