מושגי ליבה
立体マッチングにおけるイテレーティブ最適化プロセスをディフュージョンモデルの観点から再考し、時間エンコーダーと注意メカニズムを組み込んだ軽量なT-GRUベースの更新演算子を提案することで、高精度かつ効率的な立体マッチングを実現する。
תקציר
本論文は、立体マッチングにおけるイテレーティブ最適化プロセスをディフュージョンモデルの観点から再考し、新しい手法を提案している。
まず、重み共有のバックボーンネットワークを用いて左右の画像から一貫した特徴を抽出し、4Dコストボリュームを構築する。次に、注意ベースのコンテキストネットワークを導入し、長距離ピクセル依存性を捕捉し高周波情報を保持する。
さらに、ランダムノイズ事前分布を持たないブリッジディフュージョンプロセスを反復最適化モジュールに組み込む。標準的なディフュージョンアプローチの限界を克服するため、時間エンコーダーと任意のエージェント注意メカニズムを含むT-GRUベースの更新演算子を提案する。
実験では、SceneFlow、KITTI 2012、KITTI 2015、ETH3Dなどのデータセットで高い精度を達成し、特に合成から実世界への一般化性能が優れていることを示している。
סטטיסטיקה
提案手法のEPEは0.44ピクセルで、PSMNetの約2.5倍の精度を達成した。
KITTI 2012とKITTI 2015のD1-fg(前景)スコアは2.61%で、最新手法を上回った。
Middlebury 2014とETH3Dでの一般化性能も優れており、従来手法を上回る結果を示した。
ציטוטים
"立体マッチングにおけるイテレーティブ最適化プロセスをディフュージョンモデルの観点から再考し、新しい手法を提案する。"
"時間エンコーダーと任意のエージェント注意メカニズムを含むT-GRUベースの更新演算子を提案する。"
"実験では、SceneFlow、KITTI 2012、KITTI 2015、ETH3Dなどのデータセットで高い精度を達成し、特に合成から実世界への一般化性能が優れていることを示している。"