本論文では、強化学習の主要アルゴリズムが分類論的サイバネティクスのフレームワークに収まることを示す。
まず、ベルマン演算子を一般化した、サンプルに依存する、行動価値関数に適用可能な、パラメータ化されたベルマン演算子を定義する。次に、代表可能な反変関手Kを適用し、ベルマン反復を表す関数を得る。この関数は、環境とエージェントの相互作用をモデル化する別のパラメータ化された光学的形式の後退部分となる。
このように、パラメータ化された光学的形式は、この構築の中で2つの異なる方法で現れ、その1つが他の1つの一部となる。動的計画法、モンテカルロ法、時間差学習、深層強化学習などの主要な強化学習アルゴリズムのクラスは、この一般的な設定の極端な場合として見なすことができる。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor