핵심 개념
보상 학습 과정에서 자동화된 전략과 의도적인 전략 간의 시간에 따른 변화를 보여준다.
초록
이 연구는 보상 학습 과정에서 나타나는 전략의 동적 변화를 분석하였다.
실험에서 쥐들은 두 단계로 구성된 보상 학습 과제를 수행하였다.
연구진은 모델 기반 (model-based) 전략과 모델 자유 (model-free) 전략을 포함하는 혼합 에이전트 은닉 마르코프 모델(MoA-HMM)을 개발하여 적용하였다.
이 모델을 통해 보상 학습 과정에서 전략이 시간에 따라 변화하는 양상을 포착할 수 있었다.
초기에는 모델 기반 탐색 전략이 우세하다가, 이후 모델 기반 활용 전략으로 전환되며, 마지막에는 참여도가 감소하는 양상을 보였다.
이렇게 추정된 전략 변화는 반응 시간과 뇌 신경 활동의 변화를 예측할 수 있었다.
통계
보상이 주어진 시행과 보상이 없었던 시행 후 선택 행동이 달라진다.
일반적인 시행에서 선택 행동은 이전 시행의 보상 여부와 전이 확률에 따라 달라진다.
모델 기반 보상 학습 전략에서는 보상이 주어진 일반적인 전이와 보상이 없었던 희귀 전이 시행 후 선택 행동이 달라진다.
모델 자유 보상 학습 전략에서는 보상 여부에 따라서만 선택 행동이 달라진다.
인용구
"Behavior is rarely static. Time-varying factors, both internal and external, can influence the way in which humans and animals make decisions."
"Different ways of choosing an action can be attributed to using different strategies. One prominent perspective on such strategy heterogeneity is that the brain contains relatively independent, separable circuits that are conceptualized as supporting distinct strategies, each potentially competing for control."
"Apart from a few studies which build in some specific hypothesized change rule for strategy weighting (but do not, accordingly, measure such change in an unbiased way), these studies neglect the dynamic representation of strategy."