核心概念
TAO-Amodal は、完全に遮蔽された物体を含む、多様な物体の完全な範囲を推定する大規模な追跡ベンチマークを提供する。
摘要
TAO-Amodal は、完全に遮蔽された物体や部分的に遮蔽された物体、さらには画面外の物体まで含む、833種類の多様なカテゴリの物体の完全な範囲を推定する大規模な追跡ベンチマークを提供する。
- TAO-Amodal は、TAO データセットをベースにしており、既存の modal (可視部分のみ)な物体検出・追跡アルゴリズムの限界を明らかにする。
- 完全遮蔽や部分遮蔽、画面外の物体の検出と追跡を評価するための新しい指標を定義する。
- 既存の modal追跡アルゴリズムをfine-tuningすることで、遮蔽された物体の検出と追跡精度を2.1%と3.3%向上させることができる。
- データ拡張手法のPaste-and-Occlude (PnO)を提案し、合成的な遮蔽シナリオを生成することで、アルゴリズムのパフォーマンスを向上させる。
- 時系列情報を活用したKalman filterや特徴量の時系列融合などの手法を組み合わせることで、さらなる性能向上が期待できる。
統計資料
完全に遮蔽された物体(可視度10%未満)は35,100個ある。
部分的に遮蔽された物体(可視度10-80%)は139,000個ある。
画面外の物体は9,600個ある。
引述
"Amodal perception, the ability to comprehend complete ob-ject structures from partial visibility, is a fundamental skill, even for infants."
"To address the scarcity of amodal benchmarks, we introduce TAO-Amodal, featuring 833 diverse categories in thousands of video sequences."