本研究では、単眼深度推定の問題に自己回帰的な生成モデルアプローチを適用している。具体的には、Visual Autoregressive Modeling (VAR)を深度推定に適用し、Depth Autoregressive Refinement Task (DepthART)と呼ばれる新しい学習手法を提案している。
DepthARTでは、モデルの予測結果を入力として使い、それに対する残差を学習目標とすることで、モデルの自己精緻化を促進している。これにより、従来のVARアプローチと比べて、より高品質な深度推定結果が得られることを示している。
また、DepthARTは多様な解を発見できるようにモデルを訓練するため、単一の解に収束することなく、より柔軟な深度推定が可能となる。
実験では、DepthARTで訓練したDepth Autoregressive Transformerが、既存の深度推定手法と比べて優れた性能を示すことを確認している。特に、平面領域の推定精度が高く、より正確な3Dジオメトリの復元が可能であることが分かった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bulat Gabdul... at arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.15010.pdfDeeper Inquiries