大規模言語モデルを活用したエンボディドインテリジェンスと、ビジョン基盤モデルを用いたデジタルツインベースの環境認識を統合することで、外科手術タスクの堅牢な自動化を実現する。
本研究では、専門家の行動データにアクションラベルがない状況でも、状態情報のみを活用してロボットの探索を効率的に行う手法を提案する。