이 연구는 로봇 보조 급식 분야에서 음식 획득 작업의 강건성과 일반화 능력을 향상시키기 위해 다차원 표현 학습 접근법을 제안한다. 기존 방법들은 주로 시각적 단서(색상, 모양, 질감)에서 얻은 표면 기하학 정보(경계 상자, 자세 등)에 의존하지만, 이는 적응성과 강건성이 부족하다. 특히 시각적 외관이 다르더라도 물리적 특성이 유사한 음식의 경우 문제가 된다.
제안하는 IMRL(Integrated Multi-Dimensional Representation Learning) 접근법은 시각적, 물리적, 시간적, 기하학적 표현을 통합하여 모델의 강건성과 일반화 능력을 향상시킨다. 이를 통해 음식 유형과 물리적 특성, 획득 행동의 시간적 역학, 최적 퍼올림 지점 및 그릇 충만도 등의 정보를 활용할 수 있다. 이러한 다차원 표현은 상황에 따라 퍼올림 전략을 적응적으로 조정할 수 있게 하여, 다양한 음식 획득 시나리오에서 로봇의 능력을 향상시킨다.
실제 로봇 실험에서 제안 방법은 최대 35%의 성공률 향상을 보였으며, 다양한 음식과 그릇 구성에 대한 제로 샷 일반화 능력도 입증되었다. 또한 시각, 물리, 시간, 기하학적 표현의 기여도 분석을 통해 각 구성 요소의 중요성을 확인하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Rui Liu, Zah... lúc arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12092.pdfYêu cầu sâu hơn