Core Concepts
소수의 인간 개입으로부터 다양한 정책 실수 분포를 포괄하는 대량의 개입 데이터를 자동으로 생성하여 로봇 정책의 강건성을 크게 향상시킬 수 있다.
Abstract
이 논문은 로봇 모방 학습에서 정책의 강건성을 높이기 위한 IntervenGen (I-Gen) 시스템을 제안한다. 모방 학습 정책은 학습 데이터와 다른 환경에서 성능이 저하될 수 있는데, 이를 해결하기 위해 대화형 모방 학습 기법이 사용된다. 대화형 모방 학습에서는 인간 운영자가 정책 실행 중 정책 실수를 발견하면 개입하여 복구 행동을 시연한다. 그러나 이러한 개입 데이터를 충분히 수집하는 것은 어려운 문제이다.
I-Gen은 소수의 인간 개입으로부터 자동으로 대량의 개입 데이터를 생성하는 시스템이다. I-Gen은 다음과 같은 과정을 통해 작동한다:
기반 정책을 학습하고 테스트 환경에서 실행하여 정책 실수를 유발한다.
인간 개입 데이터에서 무작위로 복구 궤적을 선택하고, 현재 환경에 맞게 변환한다.
변환된 복구 궤적을 실행하여 새로운 개입 데이터를 생성한다.
생성된 데이터를 기반 데이터셋에 추가하고, 정책을 재학습한다.
I-Gen은 4개의 시뮬레이션 환경과 1개의 실제 환경에 적용되었으며, 10개의 인간 개입만으로도 정책 강건성을 최대 39배 향상시킬 수 있었다. 또한 I-Gen은 동일한 인간 데이터 예산으로 다른 기법들보다 우수한 성능을 보였다. 마지막으로 I-Gen으로 학습한 정책은 실제 환경에서도 강건성을 유지하였다.
Stats
센서 노이즈로 인한 객체 위치 추정 오차로 인해 로봇 정책의 성능이 최대 39% 저하될 수 있다.
10개의 인간 개입 데이터로부터 I-Gen은 1000개의 합성 개입 데이터를 생성할 수 있다.
I-Gen으로 학습한 정책은 동일한 인간 데이터 예산으로 다른 기법들보다 최대 24% 더 높은 성능을 보였다.
I-Gen으로 학습한 정책은 실제 환경에서 최대 90%의 성공률을 달성했다.
Quotes
"소수의 인간 개입으로부터 다양한 정책 실수 분포를 포괄하는 대량의 개입 데이터를 자동으로 생성하여 로봇 정책의 강건성을 크게 향상시킬 수 있다."
"I-Gen은 10개의 인간 개입만으로도 정책 강건성을 최대 39배 향상시킬 수 있었다."
"I-Gen으로 학습한 정책은 동일한 인간 데이터 예산으로 다른 기법들보다 최대 24% 더 높은 성능을 보였다."