Centrala begrepp
本稿では、抽象化モデルを用いてドメイン固有の語彙の不確実な解釈を処理することにより、ノイズの多い不確実な環境においても、報酬機械を用いて深層強化学習エージェントがタスク構造を活用できることを示しています。
Sammanfattning
ノイズの多い不確実な環境における深層強化学習のための報酬機械
Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, and Sheila A. McIlraith. "Reward Machines for Deep RL in Noisy and Uncertain Environments." Advances in Neural Information Processing Systems, 38th Conference on Neural Information Processing Systems (NeurIPS 2024).
本論文では、現実世界の環境におけるノイズや不確実性に対処するため、ドメイン固有の語彙の解釈が不確実な状況下で、報酬機械を用いた深層強化学習(Deep RL)の枠組みを提案しています。