핵심 개념
보상 함수의 매개변수에 대한 정보 획득을 최대화하는 새로운 쿼리 방법의 우수한 성능을 입증하고, 보상 함수를 학습하는 새로운 프레임워크 소개
통계
이전 방법보다 최대 85%까지 성능 향상을 보임
선호 기반 보상 학습에서의 정보 이득에 대한 다양한 목표 제안
EPIC 거리 및 궤적 순위를 활용한 보상 함수 평가
인용구
"우리의 새로운 프레임워크는 보상 함수를 학습하는 데 있어 우수한 성능을 보여줍니다."
"우리의 쿼리 방법은 이전 방법보다 최대 85%까지 성능 향상을 보입니다."