核心概念
単眼深度推定では、物体の形状や文脈的な手がかりに大きく依存するため、大規模で多様なデータセットを必要とする。本研究では、事前学習済みのViTモデルから得られる詳細な意味的コンテキストを活用することで、拡散モデルの性能を向上させる。
摘要
本研究は、単眼深度推定(SIDE)タスクのための新しいモデルを提案している。提案モデルは、拡散ベースのアーキテクチャを採用し、事前学習済みのViTモデルから得られる意味的コンテキスト情報を条件付けとして利用する。
具体的には以下の通り:
- 拡散ベースのアーキテクチャを採用し、潜在空間での拡散プロセスを実装
- ViTモデルから得られる詳細な意味的特徴量を条件付けとして利用する「CIDE」モジュールを提案
- CIDEモジュールで得られた条件付け情報を拡散ベースのバックボーンに入力することで、深度推定の性能を向上
提案手法は、室内データセットのNYU Depth v2と屋外データセットのKITTIの両方で、現状最高水準の性能を達成している。特にNYU Depth v2では、絶対相対誤差が14%改善され、0.059を記録している。
また、NYU Depth v2のみで学習した提案モデルが、他のデータセットでも大幅な性能向上を示すなど、優れた一般化性能も確認された。
統計資料
提案手法はNYU Depth v2データセットにおいて、絶対相対誤差0.059を達成し、現状最高水準の性能を示した。これは従来手法(VPD)の0.069から14%の改善である。
KITTIデータセットでは、平方相対誤差0.139を達成し、従来最高の0.142から2%の改善を示した。
引述
"単眼深度推定では、物体の形状や文脈的な手がかりに大きく依存するため、大規模で多様なデータセットを必要とする。"
"本研究では、事前学習済みのViTモデルから得られる詳細な意味的コンテキストを活用することで、拡散モデルの性能を向上させる。"