Core Concepts
전문가 시연 데이터를 활용하여 관찰되지 않은 이질성 하의 순차적 의사결정 문제를 해결하는 최대 엔트로피 기반 접근법을 제안한다.
Abstract
이 논문은 전문가 시연 데이터를 활용하여 관찰되지 않은 이질성 하의 순차적 의사결정 문제를 해결하는 방법을 제안한다.
전문가 시연 데이터에 내재된 관찰되지 않은 과업 변수를 모델링하기 위해 제로샷 메타 강화학습 프레임워크를 활용한다.
최대 엔트로피 원리를 사용하여 전문가 시연 데이터로부터 정보적인 사전 분포를 유도한다.
유도된 사전 분포를 활용하여 베이지안 접근법(예: 후보 샘플링)을 통해 온라인 의사결정을 수행한다.
실험 결과, 제안된 접근법인 ExPerior가 기존의 오프라인, 온라인, 오프라인-온라인 기반 접근법들을 능가하는 성능을 보였다. 또한 멀티암드 밴딧 문제에 대한 경험적 후회 분석을 통해 전문가 시연 데이터의 정보량이 ExPerior의 성능에 미치는 영향을 확인하였다.
Stats
전문가 시연 데이터 DE는 N = 500개의 최적 시연으로 구성된다.
과업 분포 µ⋆는 256개의 베타 분포로 구성되며, 그 모수는 균일 분포 [0, 4]에서 무작위로 샘플링된다.
과업 분포에서 128개의 과업을 샘플링하여 베이지안 후회를 추정한다.