מושגי ליבה
시뮬레이션에서 학습한 정책을 실제 세계로 전이하는 것은 범용 로봇을 실현하는 데 핵심적이지만, 시뮬레이션과 현실 사이의 격차를 해결하는 것이 어렵다. 이 연구에서는 인간이 개입하여 실시간으로 로봇 정책을 수정하고 이를 통해 다양한 격차를 해결하는 TRANSIC 방법을 제안한다.
תקציר
이 논문은 시뮬레이션에서 학습한 로봇 조작 정책을 실제 세계로 성공적으로 전이하는 TRANSIC 방법을 소개한다.
시뮬레이션 학습 단계:
- 3D 포인트 클라우드 표현을 사용하여 객체 기하학 정보를 유지하고 시뮬레이션과 현실 간 격차를 줄임
- 행동 공간 증류를 통해 시뮬레이션 정책을 관절 위치 제어기로 변환하여 실제 하드웨어에 적용 가능
실제 세계 학습 단계:
- 인간 조작자가 로봇 정책 실행을 모니터링하고 필요할 때 개입하여 온라인 교정 데이터 수집
- 이 데이터를 활용하여 잔차 정책을 학습하고, 기반 정책과 통합하여 다양한 시뮬레이션-실제 격차를 해결
실험 결과, TRANSIC은 기존 방법보다 우수한 성능을 보이며 적은 양의 실제 데이터로도 효과적으로 작동한다. 또한 개별 기술을 연결하여 복잡한 접촉 기반 조작 작업을 수행할 수 있다.
סטטיסטיקה
시뮬레이션 정책을 실제 세계에 직접 적용하면 다양한 격차로 인해 성능이 크게 저하된다.
TRANSIC은 기존 방법 대비 평균 1.24배 더 높은 성능을 달성한다.
TRANSIC은 기존 방법 대비 3.6배 적은 실제 데이터로도 우수한 성능을 보인다.
ציטוטים
"시뮬레이션에서 학습한 정책을 실제 세계로 전이하는 것은 범용 로봇을 실현하는 데 핵심적이지만, 시뮬레이션과 현실 사이의 격차를 해결하는 것이 어렵다."
"인간이 개입하여 실시간으로 로봇 정책을 수정하고 이를 통해 다양한 격차를 해결하는 TRANSIC 방법을 제안한다."