Core Concepts
샤프 비율@k는 오프 폴리시 평가에서 위험-수익 교환을 효과적으로 측정합니다.
Abstract
이 논문은 오프 폴리시 평가(OPE)의 효율성을 제안하고, SharpeRatio@k라는 새로운 평가 메트릭을 소개합니다. 기존 메트릭이 주로 OPE의 "정확성"에만 초점을 맞추는 반면, SharpeRatio@k는 다양한 OPE 추정기의 위험-수익 교환을 효과적으로 평가합니다. 실험 결과는 기존 정확성 메트릭과 비교하여 SharpeRatio@k가 OPE 추정기의 더 나은 선택을 식별하는 데 더 유용하다는 것을 보여줍니다.
- 샤프 비율@k는 다양한 온라인 평가 예산(k)에 대해 OPE 추정기의 위험-수익 교환을 평가합니다.
- 실험 결과는 SharpeRatio@k가 기존 정확성 메트릭보다 OPE 추정기의 더 실용적인 비교를 제공한다는 것을 시사합니다.
Stats
Off-Policy Evaluation (OPE) aims to assess the effectiveness of counterfactual policies using only offline logged data.
SharpeRatio@k measures the risk-return tradeoff of policy portfolios formed by an OPE estimator under varying online evaluation budgets.
Existing evaluation metrics for OPE estimators primarily focus on the "accuracy" of OPE, neglecting risk-return tradeoff.
Quotes
"샤프 비율@k는 오프 폴리시 평가에서 위험-수익 교환을 효과적으로 측정합니다."