핵심 개념
人口の好みを形成するためにアルゴリズムが目指す目的は、事前に決められたアームを好む人口の割合を最大化することです。
초록
この論文では、非定常マルチアームバンディット問題において、意見動態モデルを使用して人口の好みを形成する方法が提案されています。二つの異なる意見動態モデル(減少弾性度と一定弾性度)が考慮され、それぞれに対して最適なポリシーが示されています。さらに、報酬統計が未知である場合や複数の意見タイプが存在する場合にも対応したアルゴリズムが提案されています。これらのアルゴリズムは、人口の好みを形成しやすくすることを目指しており、広告や推奨システムなどで利用される可能性があります。
통계
ZAt(t+1) = ZAt(t) + Wt,
Z−At(t+1) = Z−At(t) + (1 − Wt).
ZAt(t + 1) = ZAt(t) + (1θt ⊕ Wt),
Z−At(t + 1) = Z−At(t) - (1θt ⊕ Wt).
z1(0)
d2/(d1 + d2)
Rπ[1:T]
Rexplore + Rcommit
perr, qerr
인용구
"Optimal policy to maximize type 1 population when reward statistics are known."
"An explore-then-commit (ETC) policy to maximize type 1 population when the reward statistics are unknown."
"A Thompson sampling based policy to maximize type 1 population when the reward statistics are unknown."
"The optimal policy of (6) of Lemma 1 maximizes the expected proportion of type 1 users in the population."
"The optimal policy for DID model as stated in Theorem 1, is also optimal for the CID model."