核心概念
역방향 커리큘럼과 전방 커리큘럼의 결합을 통해 극단적인 데모 및 샘플 효율성을 달성할 수 있다.
要約
이 논문은 강화 학습(RL)에서 데모 데이터를 효율적으로 활용하는 방법인 역방향 전방 커리큘럼 학습(RFCL)을 제안한다. RFCL은 두 단계로 구성된다:
- 역방향 커리큘럼 단계:
- 데모 데이터의 초기 상태에서 시작하여 점진적으로 더 어려운 상태로 이동하는 역방향 커리큘럼을 생성한다.
- 이를 통해 어려운 탐색 문제를 해결하고 좁은 초기 상태 분포에서 잘 작동하는 초기 정책을 학습할 수 있다.
- 전방 커리큘럼 단계:
- 역방향 커리큘럼에서 학습한 초기 정책을 바탕으로, 점진적으로 더 어려운 초기 상태를 학습하는 전방 커리큘럼을 적용한다.
- 이를 통해 데모 데이터 없이도 전체 초기 상태 분포에서 잘 작동하는 정책을 학습할 수 있다.
RFCL은 기존 방법들에 비해 극단적으로 적은 데모 데이터와 샘플 효율성으로 다양한 조작 작업을 해결할 수 있다. 특히 기존 방법으로는 해결할 수 없었던 고정밀 및 복잡한 작업도 해결할 수 있다.
統計
1M 샘플과 5개의 데모로 Adroit 환경에서 65.7%의 성공률을 달성했다.
1M 샘플과 5개의 데모로 MetaWorld 환경에서 95.2%의 성공률을 달성했다.
2M 샘플과 5개의 데모로 ManiSkill2 환경에서 70.5%의 성공률을 달성했다.
10M 샘플과 10개의 데모로 PlugCharger 환경에서 39.4%의 성공률을 달성했다.
引用
"역방향 커리큘럼과 전방 커리큘럼의 결합을 통해 극단적인 데모 및 샘플 효율성을 달성할 수 있다."
"RFCL은 기존 방법들에 비해 극단적으로 적은 데모 데이터와 샘플 효율성으로 다양한 조작 작업을 해결할 수 있다."
"특히 기존 방법으로는 해결할 수 없었던 고정밀 및 복잡한 작업도 해결할 수 있다."