Core Concepts
Transformer-encoderを活用した新しい深度推定アルゴリズムが提案された。
Abstract
この研究は、Transformerエンコーダーアーキテクチャを活用した新しい深度推定アルゴリズムを紹介しています。この手法は、自然言語処理での成功に触発され、視覚データ内の複雑な空間関係を捉えて深度推定の精度を向上させることに焦点を当てています。また、構造類似性指数測定(SSIM)と平均二乗誤差(MSE)を組み合わせた複合損失関数の採用により、予測された深度マップの構造的およびピクセルレベルの正確さをバランス良く考慮しています。NYU Depth Datasetを使用して厳密なトレーニングと評価が行われ、特に複雑な屋内環境で優れた結果が示されました。
Stats
RMSE is defined as equation (10).
SSIM is defined as equation (11).
The overall loss function is then given as equation (12).
Quotes
"Through this composite loss function, our model effectively combines pixel-level accuracy with structural image integrity, enhancing the depth estimation's overall effectiveness and visual quality."