本研究は、単眼深度推定(SIDE)タスクのための新しいモデルを提案している。提案モデルは、拡散ベースのアーキテクチャを採用し、事前学習済みのViTモデルから得られる意味的コンテキスト情報を条件付けとして利用する。
具体的には以下の通り:
提案手法は、室内データセットのNYU Depth v2と屋外データセットのKITTIの両方で、現状最高水準の性能を達成している。特にNYU Depth v2では、絶対相対誤差が14%改善され、0.059を記録している。
また、NYU Depth v2のみで学習した提案モデルが、他のデータセットでも大幅な性能向上を示すなど、優れた一般化性能も確認された。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Suraj Patni,... klokken arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18807.pdfDypere Spørsmål