核心概念
LiDARベースのマルチタスク学習アーキテクチャPAttFormerは、タスク固有の点群表現を必要とせず、パラメータ数が3倍小さく、処理速度が1.4倍高速でありながら、セマンティックセグメンテーションと3Dオブジェクト検出の両タスクで競争力のある性能を達成する。
要約
本研究では、効率的なLiDARベースのマルチタスク知覚アーキテクチャPAttFormerを提案している。従来のマルチタスクモデルは、各タスクに固有の点群表現を使用していたため、パラメータ数が大きく、処理速度が遅かった。
PAttFormerは、ポイントベースの表現を使用することで、タスク固有の特徴エンコーダを必要とせず、パラメータ数が3倍小さく、処理速度が1.4倍高速になっている。
提案手法は、nuScenes及びKITTIベンチマークにおいて、セマンティックセグメンテーションとオブジェクト検出の両タスクで競争力のある性能を達成している。特に、データ効率の実験では、少ないアノテーションデータでも、マルチタスク学習によって大幅な性能向上が得られることが示された。
統計
提案手法PAttFormerは、パラメータ数が21.5Mと小さく、処理速度が11FPSと高速である。
PAttFormerのマルチタスク学習では、セマンティックセグメンテーションのmIoUが+1.8%、オブジェクト検出のmAPが+2.4%向上した。
引用
"LiDARベースのマルチタスク学習アーキテクチャは、パフォーマンスと計算効率の向上が期待できるが、現在のアーキテクチャは、タスク固有の点群表現を組み合わせており、大規模で遅いネットワークになっている。"
"提案手法PAttFormerは、ポイントベースの表現を使用することで、タスク固有の特徴エンコーダを必要とせず、パラメータ数が3倍小さく、処理速度が1.4倍高速になっている。"