Core Concepts
提案手法は、Depth Anything Modelをファインチューニングすることで、内視鏡画像の深度推定精度を大幅に向上させる。ランダムベクトルに基づくロー ランク適応手法と深度方向分離畳み込みに基づく残差ブロックを導入することで、モデルの適応性と局所特徴抽出能力を高めている。
Abstract
本研究では、内視鏡手術における無監督単眼深度推定の精度向上を目的として、Depth Anything Modelのファインチューニング手法を提案している。
具体的には以下の2つの手法を導入している:
- ランダムベクトルに基づくロー ランク適応(RVLoRA)
- 事前学習モデルの重みを固定し、ランダムに初期化したスケーリングベクトルと低ランク行列を組み合わせることで、モデルの適応性を高める。
- これにより、スケールの変化に対するロバスト性が向上する。
- 深度方向分離畳み込みに基づく残差ブロック(Res-DSC)
- トランスフォーマーは大域的な特徴を捉えるが、局所的な特徴抽出が不得意。
- Res-DSCモジュールを導入することで、局所的な特徴(エッジ、テクスチャ)の抽出能力を高める。
提案手法をSCARED datasetで評価した結果、従来手法と比較して深度推定精度が大幅に向上し、かつパラメータ数も最小限に抑えられることを示した。
この手法を内視鏡手術のナビゲーションシステムに適用することで、手術の精度と安全性が大幅に向上すると期待される。
Stats
単眼深度推定の精度指標Abs Rel が0.048と最良
単眼深度推定の精度指標Sq Rel が0.315と最良
単眼深度推定の精度指標RMSE が4.172と最良
単眼深度推定の精度指標RMSE log が0.068と最良
単眼深度推定の精度指標δ が98.2%と最良
Quotes
"提案手法は、Depth Anything Modelをファインチューニングすることで、内視鏡画像の深度推定精度を大幅に向上させる。"
"ランダムベクトルに基づくロー ランク適応手法と深度方向分離畳み込みに基づく残差ブロックを導入することで、モデルの適応性と局所特徴抽出能力を高めている。"
"この手法を内視鏡手術のナビゲーションシステムに適用することで、手術の精度と安全性が大幅に向上すると期待される。"