Centrala begrepp
소수의 인간 개입으로부터 다양한 정책 실수 분포를 포괄하는 대량의 개입 데이터를 자동으로 생성하여 로봇 정책의 강건성을 크게 향상시킬 수 있다.
Sammanfattning
이 논문은 로봇 모방 학습에서 정책의 강건성을 높이기 위한 IntervenGen (I-Gen) 시스템을 제안한다. 모방 학습 정책은 학습 데이터와 다른 환경에서 성능이 저하될 수 있는데, 이를 해결하기 위해 대화형 모방 학습 기법이 사용된다. 대화형 모방 학습에서는 인간 운영자가 정책 실행 중 정책 실수를 발견하면 개입하여 복구 행동을 시연한다. 그러나 이러한 개입 데이터를 충분히 수집하는 것은 어려운 문제이다.
I-Gen은 소수의 인간 개입으로부터 자동으로 대량의 개입 데이터를 생성하는 시스템이다. I-Gen은 다음과 같은 과정을 통해 작동한다:
- 기반 정책을 학습하고 테스트 환경에서 실행하여 정책 실수를 유발한다.
- 인간 개입 데이터에서 무작위로 복구 궤적을 선택하고, 현재 환경에 맞게 변환한다.
- 변환된 복구 궤적을 실행하여 새로운 개입 데이터를 생성한다.
- 생성된 데이터를 기반 데이터셋에 추가하고, 정책을 재학습한다.
I-Gen은 4개의 시뮬레이션 환경과 1개의 실제 환경에 적용되었으며, 10개의 인간 개입만으로도 정책 강건성을 최대 39배 향상시킬 수 있었다. 또한 I-Gen은 동일한 인간 데이터 예산으로 다른 기법들보다 우수한 성능을 보였다. 마지막으로 I-Gen으로 학습한 정책은 실제 환경에서도 강건성을 유지하였다.
Statistik
센서 노이즈로 인한 객체 위치 추정 오차로 인해 로봇 정책의 성능이 최대 39% 저하될 수 있다.
10개의 인간 개입 데이터로부터 I-Gen은 1000개의 합성 개입 데이터를 생성할 수 있다.
I-Gen으로 학습한 정책은 동일한 인간 데이터 예산으로 다른 기법들보다 최대 24% 더 높은 성능을 보였다.
I-Gen으로 학습한 정책은 실제 환경에서 최대 90%의 성공률을 달성했다.
Citat
"소수의 인간 개입으로부터 다양한 정책 실수 분포를 포괄하는 대량의 개입 데이터를 자동으로 생성하여 로봇 정책의 강건성을 크게 향상시킬 수 있다."
"I-Gen은 10개의 인간 개입만으로도 정책 강건성을 최대 39배 향상시킬 수 있었다."
"I-Gen으로 학습한 정책은 동일한 인간 데이터 예산으로 다른 기법들보다 최대 24% 더 높은 성능을 보였다."