本論文では、Mask4Formerを提案している。Mask4Formerは、LiDARポイントクラウドの4Dパノプティックセグメンテーションを行う、変換器ベースのアプローチである。
まず、連続するLiDARスキャンを時空間的に統合したポイントクラウドを入力として受け取る。スパース畳み込みバックボーンにより特徴を抽出し、変換器デコーダーで時空間インスタンスクエリを逐次的に精緻化する。最終的に、セマンティッククラス、インスタンスヒートマップ、6自由度バウンディングボックスを出力する。
従来のアプローチは、セマンティックセグメンテーション、オブジェクト検出、トラッキングの各タスクを個別に行っていたが、Mask4Formerは一つのモデルでこれらを統合的に解決する。特に、バウンディングボックス回帰を導入することで、空間的に密集したインスタンス予測を実現している。
SemanticKITTIベンチマークにおいて、Mask4Formerは最新の手法を上回る性能を達成している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究