本論文は、外科手術タスクの自動化に向けた新しいアプローチを提案している。従来の研究では、言語ベースのエージェントの高度な計画能力に焦点を当ててきたが、環境認識の堅牢性が課題となっていた。
提案手法では、ビジョン基盤モデルを活用したデジタルツインベースの環境認識を実現し、これをLLMベースのエンボディドインテリジェンスと統合することで、外科手術タスクの自動化を実現している。具体的には以下の通り:
提案手法は、ペグ移動タスクとガーゼ回収タスクで評価され、従来手法に比べて高い成功率と柔軟性を示した。これは、ビジョン基盤モデルに基づくデジタルツインベースの環境認識の堅牢性によるものである。
今後の課題としては、より包括的なデジタルツインフレームワークの構築や、解釈可能性と一般化性の向上が挙げられる。これにより、外科手術自動化の実用化に向けた進展が期待できる。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor