Core Concepts
다중 팔 밴딧(MAB) 및 인과적 MAB(CMAB) 문제에서 서로 다른 변수로 정의된 모델 간 정보를 전이하는 방법을 제안한다. 이를 위해 인과적 추상화(CA) 이론을 활용하여 CAMAB 문제를 정의하고, 다양한 알고리즘을 제안하며 이들의 성능을 분석한다.
Abstract
이 논문은 다중 팔 밴딧(MAB) 및 인과적 MAB(CMAB) 문제에서 서로 다른 변수로 정의된 모델 간 정보를 전이하는 방법을 제안한다.
먼저 CAMAB 문제를 정의하고, 추상화의 질을 측정하는 두 가지 척도를 제안한다. 이를 바탕으로 CAMAB 문제에 대한 세 가지 대표적인 시나리오를 연구한다:
최적 행동 전이(TOpt): 기저 CMAB의 최적 행동을 추상화된 CMAB에 전이하는 방법. 최적 행동 보존을 위한 충분 조건을 제시하고, 최적 행동이 보존되지 않는 경우 추상화된 CMAB의 단순 후회가 선형적으로 증가함을 보인다.
행동 전이(IMIT): 기저 CMAB의 행동을 추상화하여 추상화된 CMAB에서 실행하는 방법. 행동 전이에 따른 신뢰도와 후회 간 trade-off를 분석하며, 최적 행동 보존이 필요함을 보인다.
기대값 전이(TExp): 기저 CMAB의 기대 보상을 추상화하여 추상화된 CMAB에 초기화하는 방법. 추상화에 따른 편향을 바운드하고, 이를 활용한 신뢰구간 및 누적 후회 분석을 제시한다.
이를 통해 추상화 매핑의 장단점을 특성화하고, CAMAB 문제에 대한 다양한 접근법을 제시한다. 마지막으로 온라인 광고 문제에 대한 실험 결과를 보여준다.
Stats
다중 팔 밴딧 문제에서 최적 행동 a의 기대 보상 μ은 최대값이다: μ* = maxa∈A μa.
추상화된 CMAB에서 최적 행동 a'의 기대 보상 μ'은 최대값이 아닐 수 있다: α(a) ≠ a'.
추상화 오차 e(α)와 보간 오차 ϵY'(Y)의 합은 기대 보상 차이의 상한이다: |αE(μdo(x)) - μ'α(do(x))| ≤ |EY|do(x)[ϵY'(Y)]| + e(α).
Quotes
"Even with an exact abstraction α and an order-preserving map αY', the weighting of the interventional distributions by the different values in D[Y] and D[Y'] can lead to different expected values."
"The difference in cumulative regret is dependent on the weighting of the policies α(π) and π'."
"The quality of the transfer of the expected reward is a function of the interpolation αE and the IC error e(α)."