核心概念
本稿では、抽象化モデルを用いてドメイン固有の語彙の不確実な解釈を処理することにより、ノイズの多い不確実な環境においても、報酬機械を用いて深層強化学習エージェントがタスク構造を活用できることを示しています。
要約
ノイズの多い不確実な環境における深層強化学習のための報酬機械
Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, and Sheila A. McIlraith. "Reward Machines for Deep RL in Noisy and Uncertain Environments." Advances in Neural Information Processing Systems, 38th Conference on Neural Information Processing Systems (NeurIPS 2024).
本論文では、現実世界の環境におけるノイズや不確実性に対処するため、ドメイン固有の語彙の解釈が不確実な状況下で、報酬機械を用いた深層強化学習(Deep RL)の枠組みを提案しています。