Conceitos essenciais
本稿では、RGB画像から深度情報を推定することで、オクルージョンやモーションブラーに強いロバストな物体追跡システムを実現する新しい手法を提案する。
Resumo
書誌情報
Liu, Y., Mahmood, A., & Khan, M. H. (2024). Depth Attention for Robust RGB Tracking. In Asian Conference on Computer Vision (oral acceptance).
研究目的
RGB画像のみを用いた物体追跡において、オクルージョンやモーションブラーといった課題を解決するために、単眼深度推定を用いた新しいトラッキング手法を提案する。
手法
- 単眼深度推定アルゴリズムLite-Monoを用いて、RGB画像から深度マップを生成する。
- 新しいZKカーネルを導入し、前のフレームのターゲットのバウンディングボックス内の深度情報に基づいて、現在のフレームの深度マップを絞り込む。
- 絞り込まれた深度マップを用いて、トラッキングアルゴリズムのための確率マップを生成し、ターゲットの領域を強調する。
- この確率マップを既存のRGBトラッキングアルゴリズムにシームレスに統合することで、オクルージョンやモーションブラーの影響を受けにくい、よりロバストなトラッキングを実現する。
主な結果
- 提案手法を6つのベンチマークデータセット(GOT10k, LaSOT, TrackingNet, TNL2k, UAV123, NfS)を用いて評価した結果、いずれのデータセットにおいても、従来手法を上回る精度を達成した。
- 特に、オクルージョンやモーションブラーが発生しやすいシーンにおいて、提案手法は有効であることが示された。
- フーリエ解析の結果から、提案手法は、特にViTベースのトラッカーにおいて、高周波成分の処理を抑制することで、トラッキング精度を向上させていることが示唆された。
結論
本研究では、単眼深度推定を用いることで、RGB画像のみを用いた物体追跡において、オクルージョンやモーションブラーに強いロバストなトラッキングを実現する新しい手法を提案した。提案手法は、既存のトラッキングアルゴリズムに容易に統合することができ、幅広い応用が期待される。
限界と今後の研究
- 提案手法は、深度推定の精度に依存するため、深度推定の精度が低い場合には、トラッキング精度が低下する可能性がある。
- 今後は、エンドツーエンドの学習による深度アテンション機構の性能向上や、より複雑なシーンにおける評価などが課題として挙げられる。
Estatísticas
6つのベンチマークデータセット(GOT10k、LaSOT、TrackingNet、TNL2k、UAV123、NfS)において評価を実施。
提案手法は、すべてのベンチマークにおいて、従来手法を上回る精度を達成。
6つのベンチマークデータセットの合計717,428フレームを分析した結果、ターゲットの動きは、多くの場合、自身のサイズを超えない範囲にとどまっていることが判明。
ZKカーネルの閾値Thは1.5に設定。
深度アテンションの信頼度k1は、実験的に0.02に設定。
Citações
"To the best of our knowledge, we are the first to leverage depth information for improving RGB Tracking in a principled manner."
"Our approach is neither dependent on RGB-D datasets nor requires precise depth information from the RGB-D sensors."
"Our proposed depth attention efficiently leverages rapid monocular depth estimation and can be seamlessly incorporated into existing RGB Tracking algorithms."