Core Concepts
선호도 기반 강화 학습에서 보상 함수를 모르는 상황에서도 효율적으로 최적 정책을 학습할 수 있는 이론적 프레임워크를 제안한다.
Abstract
이 논문은 선호도 기반 강화 학습(Preference-based Reinforcement Learning, PbRL)에서 보상 함수를 모르는 상황을 다룬다. PbRL에서는 에이전트가 명시적인 보상 신호 대신 인간 전문가의 선호도 피드백을 받아 과제를 최적화한다.
저자들은 기존 이론적 연구가 후회 최소화에 초점을 맞추고 실제 프레임워크를 반영하지 못한다는 점을 지적한다. 이에 따라 보상 함수를 모르는 상황에서도 효율적으로 최적 정책을 학습할 수 있는 새로운 이론적 프레임워크를 제안한다.
제안 알고리즘의 핵심 아이디어는 환경과의 상호작용과 인간 피드백 수집을 분리하는 것이다. 이를 통해 실제 응용 사례와 유사한 프레임워크를 구현하면서도 기존 연구 대비 인간 피드백에 필요한 샘플 복잡도를 크게 낮출 수 있다.
또한 행동 기반 선호도 비교 모델을 도입하여 보상 함수의 최대값에 따른 복잡도 의존성을 완화한다. 이를 통해 보상이 밀집된 환경에서도 효율적인 학습이 가능하다.
제안 알고리즘은 선형 보상 모수화와 알려지지 않은 전이 확률을 가진 MDP에 적용 가능하며, 기존 이론적 연구 대비 향상된 샘플 복잡도를 보인다.
Stats
최대 보상 값 rmax은 전체 궤적의 누적 보상을 제한한다.
보상 함수의 선형 모수화를 위한 특징 벡터 φh(s, a)의 L2 노름은 R 이하이다.
보상 함수 파라미터 θ*
h의 L2 노름은 B 이하이다.
Quotes
"선호도 기반 강화 학습(PbRL)은 명시적인 보상 신호 대신 궤적에 대한 쌍대 선호도 기반 피드백을 사용하여 과제를 최적화하는 패러다임이다."
"기존 이론적 연구는 후회 최소화에 초점을 맞추고 실제 프레임워크의 대부분을 반영하지 못한다."