本論文は、事象カメラデータの効率的な処理と分析に焦点を当てている。主な内容は以下の通り:
事象カメラの動作メカニズムを説明し、状態空間モデル(SSM)の基本的な数式を紹介する。
SSMをビジョントランスフォーマー(ViT)アーキテクチャに統合したSSM-ViTブロックを提案する。この設計により、学習の高速化と、推論時の周波数変更への適応性が実現される。
アリアシング問題に対処するために、周波数選択的なマスキングと H2ノルムの2つの戦略を導入する。これらにより、高周波数での推論時の性能低下を抑制する。
Gen1およびMpx1の2つのデータセットを用いて、提案手法の性能を既存手法と比較評価する。その結果、提案手法は20 mAPの性能向上と33%の学習高速化を達成している。
提案手法は、高速な動的視覚環境における新たな研究と応用の可能性を開くものと考えられる。
Іншою мовою
із вихідного контенту
arxiv.org
Глибші Запити