本論文では、入力画像に応じて動的に深度ビンを生成する学習可能なモジュール「Adaptive Discrete Disparity Volume (ADDV)」を提案する。ADDV は自己教師学習環境下でも高品質な深度マップを生成することができ、従来の固定的な離散化手法よりも優れた性能を示す。
第3回単眼深度推定チャレンジでは、SYNS-Patchesデータセットを用いた複雑な自然および屋内シーンでの零距離一般化に焦点を当てた。監督付き、自己教師あり、マルチタスクなど、あらゆる形式の学習手法が許可された。19のチームが基準を上回る成績を収め、そのうち10チームが手法の詳細を報告した。優勝チームは3D F-Scoreを17.51%から23.72%まで大幅に改善した。
単眼深度推定のための新しい強化データ拡張手法EDADepthを提案する。Swin2SRモデルを使用して入力画像の品質を向上させ、BEiTセマンティックセグメンテーションモデルを使用して詳細なテキストエンベディングを抽出する。BLIP-2トークナイザーを使用してこれらのテキストエンベディングからトークンを生成する。
単一画像からの効率的な単眼深度推定を実現するため、安定拡散モデルの前画像表現を活用し、高速かつ高精度な深度推定手法を提案する。
単眼深度推定の精度を向上させるために、自己回帰的な精緻化手法であるDepthARTを提案する。
単眼深度推定の性能を向上させるために、大規模カーネル注意機構を用いた深度ネットワークデコーダーと詳細な深度マップを復元するためのアップサンプリングモジュールを提案する。
本稿では、シーン構造とローカルテクスチャの分離、およびセマンティックな構造知識の蒸留を通じて、悪天候、モーションブラー、夜間条件などの困難なシナリオにおける自己教師あり単眼深度推定のロバスト性を大幅に向上させる新しい手法を提案する。
本稿では、Inception-ResNet-v2モデルをエンコーダとして活用した、エンコーダ・デコーダアーキテクチャに基づく新しい深層学習ベースのアプローチを導入することで、単眼画像からの深度推定の精度向上を実現した。
本稿では、深度推定を空間領域から周波数領域に移行することで、単眼深度推定の精度を向上させる新しいフレームワーク「DCDepth」を提案する。