Core Concepts
強化学習を採用した場合、低確率の繰り返し相互作用では直感的な欠如が優位になるが、高確率の繰り返し相互作用では二重過程の協力が優位になる。また、ネットワーク上の接続数が多いほど二重過程の協力が広まりやすい。さらに、強化学習は deliberation の頻度を高める。
Abstract
本研究は、強化学習というエージェントの行動更新ルールを導入した上で、囚人のジレンマゲームにおける協力と認知の共進化を分析している。
主な知見は以下の通り:
低確率の繰り返し相互作用では、直感的な欠如が優位になる一方、高確率の繰り返し相互作用では二重過程の協力が優位になる。この結果は先行研究と整合的である。
ネットワーク上の接続数(ノードの次数)が多いほど、二重過程の協力が広まりやすい。これは先行研究とは対照的な結果である。強化学習ルールを採用することで、接続数が協力の進化に促進的に働くことが示された。
強化学習ルールを採用すると、deliberation の頻度が全体的に高くなる。認知的に負荷の低い強化学習ルールでも、より高度な deliberation が観察される。
以上より、行動更新ルールの違いが、協力と認知の共進化プロセスに大きな影響を及ぼすことが明らかになった。
Stats
協力行動の平均収益が欠如行動の平均収益を上回る場合、協力確率を増加させる。
欠如行動の平均収益が協力行動の平均収益を上回る場合、協力確率を減少させる。