Core Concepts
効率的かつロバストな方法で、ビデオ中の任意のピクセルを長期にわたって追跡する。
Abstract
本論文は、ビデオ中の任意のピクセルを効率的かつロバストに長期にわたって追跡する新しい手法を提案する。
まず、CaDeX++と呼ばれる新しい逆変換可能なネットワークを導入する。これは局所的な特徴グリッドと非線形補間を用いることで、効率性と表現力を高めている。
次に、モノラル深度推定を利用して初期の深度マップを得ることで、NeRFのような複雑な幾何学再構成を回避し、最適化の安定性と効率性を高めている。
さらに、DINOv2の長期的な特徴対応を組み込むことで、短期的な光流情報だけでなく長期的な意味情報も活用している。
これらの工夫により、従来手法であるOmniMotion[34]と比べて、10倍以上の高速化と精度・ロバスト性の向上を実現している。
Stats
提案手法はOmniMotion[34]と比べて、DAVIS[26]データセットで10倍以上高速に収束する。
RGB-Stackingデータセットでも5倍以上高速に収束する。