本論文は、立体マッチングにおけるイテレーティブ最適化プロセスをディフュージョンモデルの観点から再考し、新しい手法を提案している。
まず、重み共有のバックボーンネットワークを用いて左右の画像から一貫した特徴を抽出し、4Dコストボリュームを構築する。次に、注意ベースのコンテキストネットワークを導入し、長距離ピクセル依存性を捕捉し高周波情報を保持する。
さらに、ランダムノイズ事前分布を持たないブリッジディフュージョンプロセスを反復最適化モジュールに組み込む。標準的なディフュージョンアプローチの限界を克服するため、時間エンコーダーと任意のエージェント注意メカニズムを含むT-GRUベースの更新演算子を提案する。
実験では、SceneFlow、KITTI 2012、KITTI 2015、ETH3Dなどのデータセットで高い精度を達成し、特に合成から実世界への一般化性能が優れていることを示している。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor