이 논문은 강화 학습(RL) 에이전트의 효과가 보상 함수 설계에 크게 의존한다는 점을 지적한다. 보상 함수와 사용자 의도, 가치, 사회적 규범 간의 불일치는 실제 세계에서 치명적일 수 있다. 현재 이 문제를 해결하기 위한 방법은 인간 선호도에서 보상 함수를 학습하는 것이지만, 이는 보상 과최적화 문제를 야기할 수 있다.
이 논문에서는 에이전트의 선호도를 고려하는 새로운 정규화 기법을 제안한다. 이를 통해 인간 피드백과 에이전트 자체의 선호도를 모두 고려하여 보상 함수를 학습함으로써 보상 과최적화 문제를 완화할 수 있다.
제안된 접근법인 REBEL은 이론적 근거를 제시하고, DeepMind Control Suite와 MetaWorld 벤치마크에서 기존 최신 기법 대비 70% 이상의 샘플 효율 향상을 보여준다. 이는 제안 방법이 실제 행동 의도와 보상 함수를 잘 정렬시킬 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Souradip Cha... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2312.14436.pdfDeeper Inquiries