従来の有限タスクでは、エージェントの記憶力の真の有効性を十分に評価できない。本研究では、累積記憶ゲームのコンセプトを活用し、Memory Gymの各環境を無限タスクに拡張することで、記憶力の有効性を徹底的に検証する。
深層強化学習において、状態の新規性に応じてアクションの持続性を動的に調整することで、効果的な探索とより良い最適性能のバランスを実現する。
オフラインの専門家の軌道を指針として活用し、状態-行動の訪問分布を専門家の軌道に整合させることで、効率的な探索と信頼できる報酬帰属を実現する。
本研究は、状態のみの実証データを活用して、スパース報酬環境における長期的な信用割当を近似的に実現する簡単かつ効率的なアルゴリズムを提案する。提案手法は、実証データの状態分布情報と関連トラジェクトリの報酬信号を融合することで、方策最適化を促進する。
条件付き変分推論に基づいて環境の状態遷移ダイナミクスのマルチモーダル性とランダム性をモデル化することで、外部報酬がない環境でも効率的な探索を可能にする。
生物学的に妥当なトポロジーを持つスパイキングアクターネットワークを提案し、従来のアーティフィシャルアクターネットワークやレギュラーのスパイキングアクターネットワークよりも優れた意思決定性能を示す。
CrystalBoxは、入力駆動型環境における深層強化学習コントローラーの未来ベースの説明を生成する新しいモデル非依存の事後説明可能性フレームワークである。CrystalBoxは報酬関数の自然な分解能力と分解された収益の説明力を組み合わせている。
ノイジー・スパイキング・アクターネットワークは、効果的な探索を可能にし、幅広い連続制御タスクで優れたパフォーマンスを発揮する。
複雑なアークルーティング問題を効果的に解決するためのArc-DRLモデルが優れた結果を示す。