本研究では、手術室のシーマンティックモデリングを目的とした
シーングラフ生成(OR-SGG)タスクに取り組む。手術室の複雑な環
境では、長期にわたる微妙な外科的行動の連続的な認識が必要と
なるため、これは非常に困難な課題である。
そこで、本研究では、画像、点群、言語の3つのモダリティを融合
し、時間的動態を考慮したフレームワーク「TriTemp-OR」を提案
する。従来のアプローチとは異なり、本手法は2Dフレームと3D点
群の双方向の時間的情報を直接活用し、階層的な特徴相互作用を
行う。さらに、医療分野の大規模言語モデル(LLaVA-Med)から事
前知識を導入し、手術室における関係クラスの不均衡問題を軽減
する。実験結果は、本手法が4D-ORベンチマークにおいて優れた
性能を示すことを明らかにしている。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Diandian Guo... alle arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09231.pdfDomande più approfondite