本研究では、外科手術タスクの自動化を目的として、強化学習(RL)アプローチを採用している。RLモデルは、シミュレーション環境との相互作用を通じて、報酬を最大化するような行動を学習する。
提案手法では、専門家の状態情報のみからなるデモンストレーションデータを活用し、セルフ監督型の模倣学習(SSIL)を用いてRLの探索を効率化する。具体的には、クエリ状態に最も近い専門家の状態を検索し、そのときの専門家の行動を擬似的に生成して、RLの探索を指針付けする。
実験では、4つの外科手術タスクを対象に評価を行った。提案手法は、ベースラインのRLモデルと比較して大幅な性能向上を示し、行動ラベルを必要とする既存の模倣学習手法とも匹敵する性能を発揮した。これは、状態情報のみからの専門家デモンストレーションを効果的に活用できることを示している。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Jingshuai Li... ב- arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.02724.pdfשאלות מעמיקות