核心概念
大規模言語モデルを活用したエンボディドインテリジェンスと、ビジョン基盤モデルを用いたデジタルツインベースの環境認識を統合することで、外科手術タスクの堅牢な自動化を実現する。
摘要
本論文は、外科手術タスクの自動化に向けた新しいアプローチを提案している。従来の研究では、言語ベースのエージェントの高度な計画能力に焦点を当ててきたが、環境認識の堅牢性が課題となっていた。
提案手法では、ビジョン基盤モデルを活用したデジタルツインベースの環境認識を実現し、これをLLMベースのエンボディドインテリジェンスと統合することで、外科手術タスクの自動化を実現している。具体的には以下の通り:
- デジタルツインベースの環境認識: Segment Anything Model 2とFoundationPoseを用いて、物体の識別、セグメンテーション、6DoFポーズを抽出し、デジタルツインベースの環境表現を構築する。
- LLMベースのエンボディドインテリジェンス: GPT4-oを用いて、環境表現に基づいて高度な計画を行い、ロボット制御コマンドを生成する。
- ロボット制御システム: dVRKプラットフォームを用いて、エンボディドインテリジェンスからの命令を実行する。
提案手法は、ペグ移動タスクとガーゼ回収タスクで評価され、従来手法に比べて高い成功率と柔軟性を示した。これは、ビジョン基盤モデルに基づくデジタルツインベースの環境認識の堅牢性によるものである。
今後の課題としては、より包括的なデジタルツインフレームワークの構築や、解釈可能性と一般化性の向上が挙げられる。これにより、外科手術自動化の実用化に向けた進展が期待できる。
統計資料
ペグ移動タスクにおける成功率:
理想環境下では全手法100%の成功率を達成
色変更環境下では提案手法100%、他手法72-90%
傾斜環境下では提案手法96%、他手法36-84%
ガーゼ回収タスクにおける成功率:
提案手法100%、他手法84%