Core Concepts
전문가의 행동을 모방하되 비용 제약을 만족시키는 방법을 제안한다.
Abstract
이 논문은 비용 제약 하에서 전문가의 행동을 모방하는 문제를 다룬다. 기존의 모방 학습 방법들은 비용 제약을 고려하지 않았지만, 실제 세계의 많은 문제에서는 전문가의 행동이 보상뿐만 아니라 비용 제약에 의해서도 결정된다.
이 논문에서는 세 가지 방법을 제안한다:
라그랑지안 기반 방법: 라그랑지안 승수를 이용하여 비용 제약을 만족시키면서 전문가 행동을 모방한다.
메타 그래디언트 방법: 라그랑지안 승수를 최적화하여 보상과 비용 제약 사이의 균형을 잡는다.
비용 위반 기반 교대 그래디언트 방법: 현재 해의 실행 가능성에 따라 다른 그래디언트 업데이트를 수행한다.
실험 결과, 제안한 세 가지 방법이 기존 모방 학습 방법들보다 비용 제약을 잘 만족시키면서 전문가 행동을 잘 모방할 수 있음을 보여준다.
Stats
전문가 트레이 제터리의 평균 비용: 51.1 ± 3.36
전문가 트레이 제터리의 평균 보상: 18.77 ± 4.64