Core Concepts
共有自律形式での協力タスクにおいて、人間の物理的制約をオンラインで学習し、適応させる新しいフレームワークを提案する。
Abstract
この論文では、人間とロボットの協力的な物理的な人間-ロボットセットアップにおいて、多様で異なる状況下にある人間の制約を学習する新しいフレームワークが提案されています。既存の作品が主に安全性制約をオフラインで学ぶことに焦点を当てている中、私たちは協力的なタスク環境で人間からのフィードバックを通じてオンラインで人間の物理的制約を学ぶことを提案しています。また、既存の協力タスクに関する作品は主にエージェント間で自治権を移行する方法に焦点を当てていますが、私たちの学習エージェントは相互作用中に適応的に人間の物理的制約を学ぶことに焦点を当てています。
Stats
ロボットと人間それぞれの行動空間はRnです。
二者マルコフゲームM = ⟨S, AH, AR, p, p0, R, γ, T⟩では、S ∈ Rmは状態空間です。
期待リターンQ(s, aR, aH) = E [Σt=0→T−1 γtRt(st, aRt , aHt ; πH, πR)] を定義します。
信頼領域Aθ = {(aR, aH) ∈ Rn : CHθ ≤ (aR, aH) ≤ CR} を数学的に定義します。
二者マルコフゲームでは、π∗ H(aH|aR,s) ≤ CHθ かつ π∗ R(aR|s,aH,Aθ) ≤ CR の条件下で最適方策π∗ Hとπ∗ Rが求められます。
Quotes
"Collaboration forms an essential part of our daily life."
"Designing an adaptive agent that detects different human constraints in real-time is essential."
"Our learning agent focuses on adaptively learning human physical constraints during the interaction to augment human skills."