本論文は、確率的ゲームの有限期間近似手法を提案し、エピソード均衡という解概念を導入する。この手法は、有限期間と無限期間の確率的ゲームの分析を橋渡しし、時間平均型と割引型の効用を統一的に扱うことができる。また、この近似手法の有効性を示すため、様々な確率的ゲームクラスにおいて、時間平均型と割引型の両方の効用に対して、(ほぼ)エピソード均衡に収束する分散型かつモデルフリーの学習ダイナミクスを提示する。