핵심 개념
Proposing a self-supervised method to jointly learn 3D motion and depth from monocular videos, addressing the limitations of existing methods.
초록
自己監督学習による単眼ビデオからの3Dモーションと深度の共同学習を提案。静的なシーン仮定に対応し、動的なシーンでの深度推定の問題を解決する手法。
통계
KITTIベンチマークで絶対相対深度誤差(abs rel)が0.099であり、他の研究を上回る性能を示す。
光流推定結果はKITTIで全体的なEPEが7.09であり、最先端の手法を凌駕し、動的領域の推定を大幅に改善している。
인용구
"Our system contains a depth estimation module to predict depth, and a new decomposed object-wise 3D motion (DO3D) estimation module to predict ego-motion and 3D object motion."
"Qualitative and quantitative experiments are conducted on three benchmark datasets, including KITTI, Cityscapes, and VKITTI2, where our model delivers superior performance in all evaluated settings."