Conceptos Básicos
적응적 표본 추출 정책은 과소 추정 오류를 교정하지 못하여 편향된 신념을 초래한다. 이는 평균 계산이나 베이지안 학습 등 정보 처리 과정이 편향되지 않더라도 발생할 수 있다.
Resumen
이 논문은 적응적 표본 추출 정책이 편향된 신념을 초래할 수 있음을 보여준다.
첫 번째 기간에 학습자는 k개의 보상을 관찰한다. 두 번째 기간에는 첫 번째 기간의 평균 보상에 따라 다른 수의 보상을 관찰한다. 즉, 첫 번째 기간의 평균 보상이 높으면 더 많은 보상을 관찰하고, 낮으면 더 적은 보상을 관찰한다.
이러한 적응적 표본 추출 정책으로 인해 편향이 발생한다. 첫 번째 기간의 평균 보상이 낮은 경우 두 번째 기간에 더 적은 보상을 관찰하므로, 과소 추정 오류가 교정되지 않는다. 반면 첫 번째 기간의 평균 보상이 높은 경우 두 번째 기간에 더 많은 보상을 관찰하므로, 과대 추정 오류가 교정된다. 이로 인해 최종 신념이 실제 기댓값보다 낮게 형성된다.
이러한 편향은 정보 처리 과정이 편향되지 않더라도 발생한다. 평균을 계산하거나 베이지안 학습을 수행하더라도 편향된 신념이 형성될 수 있다. 베이지안 학습의 경우에도 대부분의 학습자가 실제 기댓값보다 낮게 추정하는 경향이 있다.
이는 적응적 표본 추출 정책이 일반적으로 사용되는 상황에서 편향된 신념이 형성될 수 있음을 시사한다. 이는 신념 편향을 설명하는 대안적 메커니즘을 제공한다.
Estadísticas
첫 번째 기간에 관찰한 k개의 보상의 합은 k ¯
x1이다.
두 번째 기간에 관찰한 m개의 보상의 합은 ∑m
j=1 x2,j이다.
첫 번째 기간의 평균 보상이 c보다 크면 m = h개의 보상을 관찰하고, c보다 작거나 같으면 m = l개의 보상을 관찰한다.
전체 관찰 보상의 평균은 ¯
x2 = (k ¯
x1 + ∑m
j=1 x2,j)/(k + m)이다.