핵심 개념
시뮬레이션에서 훈련된 로컬 정책을 활용하여 다양한 장기 조작 작업을 실제 로봇이 사전 경험 없이도 수행할 수 있다.
초록
로컬 정책을 활용한 제로샷 장기 조작 연구 논문 요약
본 연구는 실제 로봇이 사전 경험 없이도 다양한 장기 조작 작업을 수행할 수 있도록 하는 것을 목표로 한다. 이를 위해 시뮬레이션에서 훈련된 로컬 정책을 활용하는 새로운 접근 방식을 제시한다.
로컬 정책 훈련: 다양한 물체와 환경 구성을 포함하는 시뮬레이션 환경에서 로봇 조작을 위한 로컬 정책을 강화학습(PPO)을 사용하여 훈련한다.
일반화된 정책 도출: 훈련된 다수의 단일 객체 기반 로컬 정책을 다중 객체에 일반화된 시각-운동 정책으로 변환하기 위해 DAgger 알고리즘을 사용한다.
제로샷 장기 조작: 텍스트 명령을 기반으로 작업을 하위 목표로 분해하고, 각 하위 목표 달성을 위해 훈련된 로컬 정책, 동작 계획, 시각 언어 모델(VLM)을 통합하여 실제 로봇을 제어한다.