本論文では、単眼深度推定のための新しい手法EDADepthを提案している。EDADepthは、入力画像の品質を向上させるためにSwin2SRモデルを使用し、BEiTセマンティックセグメンテーションモデルを使用して詳細なテキストエンベディングを抽出する。さらに、BLIP-2トークナイザーを使用してこれらのテキストエンベディングからトークンを生成する。
提案手法の主な特徴は以下の通りである:
提案手法は、NYUv2およびKITTIデータセットで評価され、既存の最先端の単眼深度推定モデルと比較して優れた性能を示している。特に、δ3メトリックでは最先端の結果を達成し、RMSEおよびRELメトリックでも同等の結果を得ている。また、提案手法は既存の拡散ベースの単眼深度推定モデルと比較して、推定深度マップの可視化が優れていることが示されている。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies