核心概念
手術ビデオ理解のために、器具と組織の位置情報と相互作用を包括的に表現し、検出するモデルを提案する。
摘要
本論文では、手術ビデオ理解のために、器具と組織の種類、位置情報、相互作用の種類を包括的に表現する「五つ組」の概念を提案する。この「五つ組」を検出するためのモデルITIDNetを提案する。
ITIDNetは2段階のアプローチを取る。第1段階では、器具と組織の検出精度を向上させるため、以下の手法を導入する:
- Snippet Consecutive Feature (SCF) Layerで、同一フレーム内の器具と組織の関係性を活用
- Spatial Corresponding Attention (SCA) Layerで、隣接フレーム間の器具と組織の関係性を活用
第2段階では、検出された器具と組織の相互作用を予測するため、以下の手法を導入する:
- Temporal Graph (TG) Layerで、同一フレーム内の器具と組織の関係性、および時間方向の同一インスタンスの関係性を活用
提案手法は、既存手法と比較して、器具・組織の検出精度(mAPIT)と器具-組織相互作用の検出精度(mAPITI)が大幅に向上している。特に、TG Layerの導入により、時間方向の関係性を活用できたことが、相互作用検出精度の向上に寄与している。
統計資料
手術ビデオ中の器具と組織の位置情報は、通常の物体検出では十分な精度が得られないことが多い。
例えば、出血や反射により画質が悪化したり、器具と組織が互いに遮蔽されたりすることがある。
引述
「手術ビデオ理解のために、器具と組織の位置情報と相互作用を包括的に表現し、検出することが重要である」
「提案手法ITIDNetは、同一フレーム内の器具と組織の関係性、および時間方向の同一インスタンスの関係性を活用することで、既存手法と比べて大幅な精度向上を実現した」