Główne pojęcia
本稿では、従来の平均-分散強化学習における計算コストの問題を、期待二次効用最大化を用いることで解決する新たな手法を提案する。
Streszczenie
平均-分散効率的な強化学習とその動的金融投資への応用:論文要約
本稿は、リスクを考慮した強化学習、特に平均-分散強化学習(MVRL)の新手法を提案する研究論文である。
従来のMVRLは、累積報酬の平均を最大化しつつ、その分散を一定レベルに抑えることを目的としてきた。しかし、分散項の勾配の近似における二重サンプリング問題のため、計算コストが非常に高いという課題があった。本研究は、この課題を克服し、より効率的に平均-分散効率的な方策を獲得することを目的とする。
本稿では、二重サンプリング問題を回避するため、期待二次効用最大化(EQUMRL)を用いた手法を提案する。具体的には、方策勾配法を用いて、期待二次効用関数を直接最大化するようにエージェントを学習させる。