Core Concepts
部分的な観察と劣位な実演からロバストな報酬関数を学習し、強化学習を用いてポリシーを最適化することで、外科的電気焼灼タスクを効率的に実行できる。
Abstract
本研究では、部分的な観察と劣位な実演から報酬関数を学習し、強化学習を用いてポリシーを最適化することで、外科的電気焼灼タスクを効率的に実行する手法を提案している。
まず、部分的な点群観察をエンコーダーで低次元特徴表現に変換する自己符号化器を事前学習する。次に、この特徴表現と関連するロボットの状態を入力として、実演の順位付けに基づいて報酬関数を学習する。最後に、この学習した報酬関数を用いて強化学習によりポリシーを最適化する。
シミュレーション実験では、この手法が純粋な模倣学習に比べて大幅な性能向上を示し、実物ロボットでの実験でも良好な結果が得られた。部分的な観察と劣位な実演から効率的に報酬関数を学習し、ロバストなポリシーを獲得できることが示された。
Stats
2つの球体への到達を目標とする球体タスクでは、ポリシーの成功率が80%に達した。
組織の剥離を伴う切断タスクでは、ポリシーの成功率が80%に達した。
Quotes
"部分的な観察と劣位な実演から効率的に報酬関数を学習し、ロバストなポリシーを獲得できることが示された。"
"シミュレーション実験では、この手法が純粋な模倣学習に比べて大幅な性能向上を示した。"