Core Concepts
協力的な知覚システムの効率的な実装方法を提案する。
Abstract
ActFormerは、Transformerを活用したスケーラブルなカメラベースの協力的知覚システムであり、複数のロボットからの情報を効率的に活用して3Dオブジェクト検出性能を向上させる。ActFormerは、BEV(Bird’s Eye View)クエリを活用し、空間情報に基づいて適切なカメラ特徴量を選択することでコンピューター処理と通信効率を向上させる。このアプローチは、他の多くの既存手法と比較して情報冗長性を削減し、検出性能を大幅に向上させることが示されている。
ActFormerは、自己認識と適応性に重点を置き、コンテキストに即した意思決定を可能にするアクティブ選択メカニズムによって知覚容量を強化し、通信冗長性を低減する。このアプローチは知覚だけでなく、自律型ロボットのためのより動的で拡張可能かつ効率的な協力環境も促進する。
Stats
ActFormerはAP@0.7で29.89%から45.15%まで検出性能が向上しました。
ActFormerでは約50%少ないクエリ数で検出パフォーマンスが向上しました。
ActFormerは平均して元々の非アクティブクエリ数よりも約50%少ないアクティブクエリ数を使用します。
Quotes
"Our major contributions are summarized as follows: We conceptualize a scalable and efficient collaborative perception framework that can actively and intelligently identify the most relevant sensory measurements based on spatial knowledge, without relying on the sensory measurements themselves."
"We ground the concept of the scalable collaborative perception with a Transformer, i.e., ActFormer, which uses a group of 3D-to-2D BEV queries to actively and efficiently aggregate the features from multi-robot multi-camera input, only relying on pose information."