単眼深度推定では、物体の形状や文脈的な手がかりに大きく依存するため、大規模で多様なデータセットを必要とする。本研究では、事前学習済みのViTモデルから得られる詳細な意味的コンテキストを活用することで、拡散モデルの性能を向上させる。