EVILLアルゴリズムは、構造化された確率的バンディット問題でランダムな探索を行う方法です。このアルゴリズムは、負の対数尤度関数にランダムな線形成分を追加することで最小化されるロス関数を使用します。これにより、楽観的なモデルが得られるため、効果的なランダム探索手法として機能します。一般化線形バンディットでは、EVILLはPHE(perturbed history exploration)メソッドと同等であり、適切なパラメータ設定下ではThompsonサンプリングスタイルの性能を発揮します。
PHEが一貫性のない推定値や線形後悔を引き起こす理由は何ですか?
PHE(perturbed history exploration)が一貫性の欠如や線形後悔を引き起こす主要な理由は、特定の条件外で生じる「バイアス」です。例えばRayleigh linear bandit問題では、自然指数ファミリー以外の分布が使われており、「加算的報酬摂動」によって生じるバイアスが原因となっています。このバイアスによりPHEは正しい解析結果から逸脱し、最適でない行動選択を引き起こしました。