Core Concepts
カメラとLiDARセンサーを融合したトランスフォーマーベースのネットワークを提案し、自動運転のためのセマンティックセグメンテーションを実現する。
Abstract
本研究では、カメラとLiDARセンサーを融合したトランスフォーマーベースのネットワークCLFTを提案している。CLFTは、ビジョントランスフォーマーの漸進的アセンブル戦略を二方向ネットワークに適用し、トランスフォーマーデコーダ層間のクロスフュージョン戦略を用いて、カメラとLiDARの特徴表現を統合する。
実験では、Waymo Open Datasetを使用し、照明条件と天候条件に基づいて4つのサブセットに分割した。CLFTは、単一モダリティのトランスフォーマーベースモデルと比較して5-10%の全体的な改善を示し、暗闇や雨天の過酷な条件下でも10%の性能向上を達成した。これは、トランスフォーマーの大域的コンテキストを捉える能力と、不均等なクラス分布に対する優位性によるものである。
提案手法は、カメラとLiDARの融合を直接処理し、2Dセマンティックオブジェクトセグメンテーションを実現する点で、既存の研究と大きく異なる。また、オープンソースで公開されており、対話型のデモンストレーションと応用が可能である。
Stats
車両クラスの精度は最大94.82%、再現率は最大96.69%、IoUは最大91.26%を達成した。
人間クラスの精度は最大81.11%、再現率は最大92.89%、IoUは最大65.46%を達成した。
Quotes
"カメラとLiDARセンサーを融合したトランスフォーマーベースのネットワークを提案し、自動運転のためのセマンティックセグメンテーションを実現する。"
"CLFTは、ビジョントランスフォーマーの漸進的アセンブル戦略を二方向ネットワークに適用し、トランスフォーマーデコーダ層間のクロスフュージョン戦略を用いて、カメラとLiDARの特徴表現を統合する。"