核心概念
본 연구에서는 다항식 기저 함수를 활용하여 특징 집합을 생성하고, 특징 간 상관관계를 활용한 효율적인 특징 선택 방법을 제안한다. 이를 통해 전문가 시연 데이터로부터 보상 함수를 효과적으로 학습할 수 있다.
摘要
본 연구는 역강화학습(IRL)에서 보상 함수를 표현하기 위한 적절한 특징 선택의 문제를 다룬다. 기존에는 특징 선택이 수동으로 이루어져 시간과 노력이 많이 소요되었다.
제안하는 방법은 다음과 같다:
- 다항식 기저 함수를 활용하여 특징 집합을 생성한다. 이를 통해 상태 분포의 통계적 모멘트를 일치시킬 수 있다.
- 특징 간 상관관계를 활용하여 가장 관련성 높은 특징들을 자동으로 선택한다. 이를 통해 보상 함수의 복잡도를 낮추고 노이즈 및 가성 상관관계의 영향을 줄일 수 있다.
- 선택된 특징들을 활용하여 최대 엔트로피 IRL 기법으로 보상 함수를 학습하고, 강화학습 알고리즘으로 최적 정책을 추출한다.
제안 방법을 다양한 비선형 제어 과제에 적용한 결과, 수동으로 선택한 특징이나 모든 특징을 사용하는 경우보다 우수한 성능을 보였다. 또한 전문가 데이터와 추출된 정책의 상태 분포 간 유사도가 높게 나타났다.
统计
전문가 데이터와 추출된 정책의 상태 분포 간 2D Wasserstein 거리가 제안 방법이 모든 특징을 사용하는 경우보다 상당히 낮다.
제안 방법은 Pendulum 과제에서 벤치마크 성능에 더 빨리 도달했다.
引用
"제안하는 방법은 보상 함수의 복잡도를 낮추고 노이즈 및 가성 상관관계의 영향을 줄일 수 있다."
"제안 방법을 다양한 비선형 제어 과제에 적용한 결과, 수동으로 선택한 특징이나 모든 특징을 사용하는 경우보다 우수한 성능을 보였다."