本論文は、自動運転シーンのビデオセマンティックセグメンテーションの課題に取り組んでいる。従来のアプローチは、キーフレームの利用やフィーチャー伝播、クロスフレームアテンションなどを用いて、暗黙的なクロスフレーム対応関係の推定と高計算コストの問題に取り組んできた。
一方で本論文は、前方消失点(VP)の特性を活用する初めての取り組みである。VPの近くにある物体は識別が困難であり、VPから放射状に移動する傾向がある。著者らは、この静的および動的なVP特性を活用するために2つのモジュールを提案している:
これらのモジュールは、コンテキストと詳細を分離する枠組みの中で統合される。コンテキストと詳細の特徴は異なる解像度で抽出され、コンテキスト化された動的アテンションによって融合される。
実験では、Cityscapes及びACDCデータセットにおいて、従来手法を上回る精度を達成しつつ、計算コストも抑えられていることが示された。特に、不確実な領域の評価指標であるIA-IoUでの大幅な改善が確認された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究