本論文では、Mask4Formerを提案している。Mask4Formerは、LiDARポイントクラウドの4Dパノプティックセグメンテーションを行う、変換器ベースのアプローチである。
まず、連続するLiDARスキャンを時空間的に統合したポイントクラウドを入力として受け取る。スパース畳み込みバックボーンにより特徴を抽出し、変換器デコーダーで時空間インスタンスクエリを逐次的に精緻化する。最終的に、セマンティッククラス、インスタンスヒートマップ、6自由度バウンディングボックスを出力する。
従来のアプローチは、セマンティックセグメンテーション、オブジェクト検出、トラッキングの各タスクを個別に行っていたが、Mask4Formerは一つのモデルでこれらを統合的に解決する。特に、バウンディングボックス回帰を導入することで、空間的に密集したインスタンス予測を実現している。
SemanticKITTIベンチマークにおいて、Mask4Formerは最新の手法を上回る性能を達成している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kadir Yilmaz... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2309.16133.pdfDeeper Inquiries