本論文では、深層強化学習における効率的な探索の課題に取り組む。特に、外部報酬が希薄または全く存在しない環境での探索が困難な問題に着目する。
提案手法の「変分ダイナミックモデル(VDM)」は、条件付き変分推論に基づいて環境の状態遷移ダイナミクスのマルチモーダル性とランダム性をモデル化する。VDMは、現在の状態、行動、潜在変数の条件の下で次状態を生成するという条件付き生成プロセスとして環境の遷移ダイナミクスを考える。
この潜在変数は、ガウス分布からサンプリングされ、ダイナミクスのマルチモーダル性とランダム性を表現する。VDMの学習目的は、状態遷移の対数尤度の上界を最大化することである。この上界を内発的報酬として使うことで、外部報酬なしでも効率的な自己教師あり探索が可能となる。
提案手法は、Atariゲーム、Super Mario、マルチプレイヤーゲーム、実ロボット操作タスクなどの画像ベースの強化学習タスクで評価され、既存の手法を上回る性能を示す。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問