Centrala begrepp
適応的なサンプリングポリシーを持つ学習アルゴリズムは、平均値の計算やベイズ更新においても、対象の期待値を過小評価する傾向がある。
Sammanfattning
本論文は、適応的なサンプリングポリシーが学習プロセスにおける信念の偏りを生み出すことを示している。
具体的には以下の通り:
第1期に観察した平均値に応じて、第2期のサンプルサイズを変化させる適応的なサンプリングポリシーを持つ学習者を考える。
第1期の平均値が高い場合には大きなサンプルサイズを取り、第1期の平均値が低い場合には小さなサンプルサイズに留める。
このような適応的なサンプリングポリシーを持つ学習者は、最終的な信念(平均値)を過小評価する傾向にある。
この偏りは、正の初期平均値は過大に修正されるのに対し、負の初期平均値は過小に修正されるためである。
この偏りはベイズ学習者にも当てはまり、ほとんどのベイズ学習者が対象の期待値を過小評価する。
この偏りは、学習者の情報処理プロセスに心理的なバイアスがなくても生じる可能性があることを示唆している。
Statistik
第1期の平均値が正の場合の最終的な平均値の期待値: E[ ¯
x2| ¯
x1 > c] = 1/6
第1期の平均値が負の場合の最終的な平均値の期待値: E[ ¯
x2| ¯
x1 < c] = -2/3
標準偏差σ=1の場合の最終的な平均値の期待値: E[ ¯
x2] = -0.141
標準偏差σ=5の場合の最終的な平均値の期待値: E[ ¯
x2] = -0.705
Citat
"適応的なサンプリングポリシーを持つ学習プロセスは一般的に偏った信念を生み出す"
"ほとんどのベイズ学習者が対象の期待値を過小評価する"