核心概念
提案手法のSASTは、ウィンドウとトークンの共同スパース化を実現し、シーン特有のスパース性最適化を行うことで、高性能かつ効率的なイベントベースオブジェクト検出を実現する。
要約
本論文は、イベントベースオブジェクト検出のための効率的な変換器ネットワークであるSASTを提案している。
イベントカメラは高時間分解能と広ダイナミックレンジを持つが、従来のフレームベースのネットワークでは直接適用できない。
提案手法のSASTは、ウィンドウとトークンの共同スパース化を行い、シーン特有のスパース性最適化を実現する。
これにより、計算コストを大幅に削減しつつ、高性能なオブジェクト検出を実現する。
SASTは、ウィンドウ選択モジュールとトークン選択モジュールを備え、重要なウィンドウとトークンを選択する。
また、マスクスパースウィンドウ自己注意機構(MS-WSA)を導入し、選択されたトークンに対して効率的な自己注意演算を行う。
実験結果では、SASTが1Mpxおよび Gen1データセットにおいて、最高のパフォーマンスと効率性を示している。
統計
1Mpxデータセットでは、SASTの計算量(A-FLOPs)がRVTの28%に抑えられている。
Gen1データセットでは、SASTの計算量がRVTの36%に抑えられている。
引用
"SASTは、ウィンドウとトークンの共同スパース化を実現し、シーン特有のスパース性最適化を行うことで、高性能かつ効率的なイベントベースオブジェクト検出を実現する。"
"提案手法のSASTは、ウィンドウ選択モジュールとトークン選択モジュールを備え、重要なウィンドウとトークンを選択する。また、マスクスパースウィンドウ自己注意機構(MS-WSA)を導入し、選択されたトークンに対して効率的な自己注意演算を行う。"