Core Concepts
本稿では、Inception-ResNet-v2モデルをエンコーダとして活用した、エンコーダ・デコーダアーキテクチャに基づく新しい深層学習ベースのアプローチを導入することで、単眼画像からの深度推定の精度向上を実現した。
Abstract
書誌情報
Dabbrata Das, Argho Deb Das, and Farhan Sadaf. (2024). Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture. Computer Vision and Image Understanding. preprint submitted.
研究目的
本研究は、単眼画像からの深度推定における精度向上を目的とし、Inception-ResNet-v2モデルをエンコーダとして用いた新しいエンコーダ・デコーダアーキテクチャを提案する。
手法
- Inception-ResNet-v2モデルをエンコーダとして使用し、多重スケール特徴抽出を実現。
- デコーダは、アップサンプリングとスキップ接続を用いて、エンコーダからの特徴マップと結合し、高解像度の深度マップを生成。
- 深度損失、勾配エッジ損失、SSIM損失を組み合わせた複合損失関数を導入し、深度マップの精度と構造的一貫性を最適化。
- NYU Depth V2データセットを用いてモデルの学習と評価を実施。
主な結果
- 提案モデルは、NYU Depth V2データセットにおいて、ARE 0.064、RMSE 0.228、Log10エラー0.032を達成し、従来のエンコーダ・デコーダベースの手法と比較して優れた精度を実現。
- 𝛿< 1.25の閾値における精度は0.893に達し、複雑なシーンでも高精度な深度推定が可能。
結論
- Inception-ResNet-v2モデルをエンコーダとして用いたエンコーダ・デコーダアーキテクチャは、単眼深度推定において有効な手法であることが示された。
- 提案モデルは、複雑なオブジェクトや変化するオブジェクトサイズ・距離にも対応でき、高精度な深度マップを生成可能。
意義
本研究は、自動運転、ロボットナビゲーション、3D再構成、拡張現実など、様々な分野における単眼深度推定技術の進歩に貢献するものである。
制限と今後の研究
- 提案モデルはパラメータ数が比較的多く、計算コストが高い点が課題として挙げられる。
- 今後の研究では、モデルの軽量化やリアルタイム処理性能の向上に取り組む必要がある。
Stats
提案モデルは、ARE 0.064、RMSE 0.228、Log10エラー0.032を達成。
𝛿< 1.25の閾値における精度は0.893。
モデルの学習には、NYU Depth V2データセットからランダムに抽出した65,000サンプルを使用。
テストには、654サンプルを使用。
入力画像は240 × 320 × 3にダウンサンプリング。
提案モデルのR2スコアは0.8682。