本論文では、手術ビデオ理解のために、器具と組織の種類、位置情報、相互作用の種類を包括的に表現する「五つ組」の概念を提案する。この「五つ組」を検出するためのモデルITIDNetを提案する。
ITIDNetは2段階のアプローチを取る。第1段階では、器具と組織の検出精度を向上させるため、以下の手法を導入する:
第2段階では、検出された器具と組織の相互作用を予測するため、以下の手法を導入する:
提案手法は、既存手法と比較して、器具・組織の検出精度(mAPIT)と器具-組織相互作用の検出精度(mAPITI)が大幅に向上している。特に、TG Layerの導入により、時間方向の関係性を活用できたことが、相互作用検出精度の向上に寄与している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wenjun Lin,Y... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00322.pdfDeeper Inquiries