이 논문은 언어 조건부 로봇 조작 작업을 위한 동적 가우시안 스플래팅 기반 접근법을 제안한다. 기존 방법들은 관찰 장면의 의미론적 표현만을 활용하여 로봇 행동을 예측하였지만, 이는 객체 간 상호작용을 반영하지 못해 복잡한 작업 수행에 어려움을 겪었다.
제안 방법인 ManiGaussian은 동적 가우시안 스플래팅 프레임워크를 통해 가우시안 임베딩 공간에서 다양한 의미론적 특징의 전파를 모델링한다. 이를 통해 장면 수준의 시공간 역학을 학습할 수 있으며, 이는 최적의 로봇 행동 예측에 활용된다. 또한 가우시안 세계 모델을 구축하여 현재 장면과 로봇 행동을 바탕으로 미래 장면을 재구성하도록 하여, 동적 가우시안 스플래팅 프레임워크에 장면 역학에 대한 감독 신호를 제공한다.
실험 결과, ManiGaussian은 RLBench 데이터셋의 10개 작업 및 166개 변형에서 기존 최신 방법 대비 13.1% 높은 평균 성공률을 달성하였다. 이는 제안 방법이 복잡한 조작 작업을 수행하는 데 효과적임을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問