Core Concepts
선호도 기반 강화 학습에서 상태-행동 쌍의 중요도를 활용하여 보상 함수 학습을 개선할 수 있다.
Abstract
이 논문은 선호도 기반 강화 학습(PbRL)에서 보상 함수 학습의 한계를 해결하기 위해 Hindsight PRIOR 기법을 제안한다.
PbRL은 사용자의 선호도 피드백을 통해 보상 함수를 학습하는 방식으로, 보상 함수 설계의 어려움을 해결할 수 있다.
그러나 기존 PbRL 방식은 선호도 피드백에서 각 상태-행동 쌍의 기여도를 고려하지 않아, 많은 양의 피드백이 필요하고 학습된 보상 함수가 목표 보상 함수와 잘 정렬되지 않는 문제가 있다.
Hindsight PRIOR는 이를 해결하기 위해 상태-행동 쌍의 중요도를 추정하고, 이를 보상 함수 학습에 활용한다.
구체적으로, 상태-행동 쌍의 중요도는 전방 동역학 모델의 주의 집중 메커니즘을 통해 추정되며, 이를 활용하여 예측된 반환을 재분배하는 보조 목적함수를 학습에 포함한다.
실험 결과, Hindsight PRIOR는 기존 PbRL 방식에 비해 더 적은 양의 선호도 피드백으로도 높은 성능을 달성할 수 있으며, 보상 함수 회복 성능도 향상되었다.
Stats
선호도 피드백 오류가 20%일 때, Hindsight PRIOR의 성능이 오류가 없는 PEBBLE 보다 우수하다.
Hindsight PRIOR는 PEBBLE 대비 MetaWorld에서 20%, DMC에서 15% 더 많은 보상을 회복한다.
Quotes
"선호도 기반 강화 학습(PbRL)은 보상 함수 설계의 어려움을 해결할 수 있지만, 선호도 피드백에서 각 상태-행동 쌍의 기여도를 고려하지 않아 많은 양의 피드백이 필요하고 학습된 보상 함수가 목표 보상 함수와 잘 정렬되지 않는 문제가 있다."
"Hindsight PRIOR는 상태-행동 쌍의 중요도를 추정하고, 이를 보상 함수 학습에 활용하여 이러한 문제를 해결한다."