Concepts de base
단기 및 장기 보상을 효과적으로 균형 잡는 최적 정책을 학습하는 새로운 접근법을 제안한다.
Résumé
이 논문은 단기 및 장기 보상을 균형 있게 고려하여 최적 정책을 학습하는 새로운 접근법을 제안한다.
먼저 잠재적 결과 프레임워크에 기반하여 단기 및 장기 보상을 정의하고, 혼란 편향과 장기 결과의 결측 문제를 해결하기 위한 가정을 도입한다. 이를 통해 단기 및 장기 보상의 식별 가능성을 보장한다.
다음으로 단기 및 장기 보상의 효율적 영향 함수와 반모수 효율 경계를 도출하고, 이를 활용하여 일관성, 점근적 정규성, 반모수 효율성을 만족하는 새로운 추정량을 제안한다. 특히 단기 결과가 장기 보상 추정량의 효율성 향상에 기여할 수 있음을 밝힌다.
제안된 추정량을 바탕으로 단기 및 장기 보상을 균형 있게 고려하는 정책 학습 방법론을 개발하며, 학습된 정책의 후회율과 추정 오차에 대한 수렴 속도를 분석한다.
마지막으로 다양한 실험을 통해 제안 방법의 우수성을 검증한다.
Stats
단기 및 장기 보상의 균형을 위해 고려해야 할 요소는 다음과 같다:
단기 보상 V(π; s)은 정책 π에 따른 기대 단기 결과
장기 보상 V(π; y)은 정책 π에 따른 기대 장기 결과
최적 정책 π*은 단기 및 장기 보상의 가중합을 최대화하는 정책
Citations
"단기 효과와 장기 효과는 크게 다를 수 있으며, 때로는 상반된 추세를 보일 수 있다."
"단기 보상에만 지나치게 집중하면 장기 이득을 소홀히 할 수 있고, 반대로 장기 보상에만 집중하면 단기 압박을 무시할 수 있다. 따라서 단기 및 장기 보상의 균형을 달성하는 것이 바람직하다."