Core Concepts
사용자가 지정한 목표 구간 내에 최종 누적 보상이 포함될 확률을 시간 t마다 잘 보정된 추정치로 제공하여, 이 확률이 지정된 임계값 미만으로 떨어지면 사용자에게 경고할 수 있다.
Abstract
이 논문은 자율 시스템이 작업을 수행하는 동안 사용자의 목표 달성 확률에 대한 보정된 추정치를 유지하는 방법을 제안한다. 사용자는 실수 값 성능 요약 지표(예: 누적 보상)에 대한 목표 구간을 지정한다. 각 시간 t에 자율 시스템은 최종 누적 보상이 사용자 지정 목표 구간 내에 포함될 확률에 대한 보정된 추정치를 제공한다. 이 확률이 지정된 임계값 미만으로 떨어지면 시스템은 사용자에게 경고한다.
이를 위해 저자들은 Conformalized Quantile Regression(CQR)을 확장한 Probability-space Conformalized Quantile Regression(PCQR)을 제안한다. PCQR은 추정된 조건부 누적 분포 함수(CDF)를 활용하여 보정된 확률 추정치를 제공한다. 이를 통해 PCQR은 CQR과 달리 역함수를 가지므로 사용자 지정 목표 구간에 대한 보정된 확률 추정이 가능하다.
실험 결과 PCQR과 PCQR-1 모두 StarCraft 2와 Tamarisk 도메인에서 잘 보정된 것으로 나타났다.
Stats
최종 누적 보상 y가 사용자 지정 목표 구간 [y-, y+] 내에 포함될 확률은 P[y- ≤ y ≤ y+|st]이다.
이 확률이 지정된 임계값 미만으로 떨어지면 자율 시스템은 사용자에게 경고해야 한다.