핵심 개념
인간 피드백을 활용하여 보상 함수를 학습할 때 발생할 수 있는 보상 과최적화 문제를 해결하기 위해 새로운 정규화 기법을 제안한다.
초록
이 논문은 강화 학습(RL) 에이전트의 효과가 보상 함수 설계에 크게 의존한다는 점을 지적한다. 보상 함수와 사용자 의도, 가치, 사회적 규범 간의 불일치는 실제 세계에서 치명적일 수 있다. 현재 이 문제를 해결하기 위한 방법은 인간 선호도에서 보상 함수를 학습하는 것이지만, 이는 보상 과최적화 문제를 야기할 수 있다.
이 논문에서는 에이전트의 선호도를 고려하는 새로운 정규화 기법을 제안한다. 이를 통해 인간 피드백과 에이전트 자체의 선호도를 모두 고려하여 보상 함수를 학습함으로써 보상 과최적화 문제를 완화할 수 있다.
제안된 접근법인 REBEL은 이론적 근거를 제시하고, DeepMind Control Suite와 MetaWorld 벤치마크에서 기존 최신 기법 대비 70% 이상의 샘플 효율 향상을 보여준다. 이는 제안 방법이 실제 행동 의도와 보상 함수를 잘 정렬시킬 수 있음을 보여준다.
통계
제안 방법인 REBEL은 기존 최신 기법 대비 70% 이상의 샘플 효율 향상을 보였다.
REBEL은 DeepMind Control Suite와 MetaWorld 벤치마크에서 우수한 성능을 보였다.
인용구
"인간 피드백을 활용하여 보상 함수를 학습할 때 발생할 수 있는 보상 과최적화 문제를 해결하기 위해 새로운 정규화 기법을 제안한다."
"에이전트의 선호도를 고려하는 새로운 정규화 기법을 통해 인간 피드백과 에이전트 자체의 선호도를 모두 고려하여 보상 함수를 학습함으로써 보상 과최적화 문제를 완화할 수 있다."