Khái niệm cốt lõi
本稿では、リスクを考慮した選好ベース強化学習(PbRL)アルゴリズムであるRA-PbRLを提案し、その理論的性能保証と実証実験による有効性検証を行っています。
Tóm tắt
RA-PbRL: リスクを考慮した選好ベース強化学習
本稿は、リスクを考慮した選好ベース強化学習(PbRL)アルゴリズムであるRA-PbRLを提案し、その理論的性能保証と実証実験による有効性検証を行った研究論文です。
強化学習(RL)は、エージェントが未知の環境と相互作用しながら学習する逐次的意思決定のための枠組みです。従来のRLでは、各ステップにおいて報酬信号を用いて方策を選択しますが、現実世界の多くのシナリオでは、明示的な報酬関数を構築することは困難です。そこで、選好ベース強化学習(PbRL)は、2つの軌跡のペアに対する選好フィードバックを用いることで、この課題に対処します。
従来のPbRLは、平均報酬または期待効用を最大化するリスク中立的なものでした。しかし、自動運転や医療など、リスクを考慮した戦略が必要とされる分野では、リスク回避的なPbRLが求められています。