本論文は、事象カメラデータの処理と分析を効率的に行うために、状態空間モデル(SSM)をビジョントランスフォーマー(ViT)アーキテクチャに統合した新しいアプローチを提案する。この手法は、異なる推論周波数でのモデルの適応性を高め、かつ学習プロセスを大幅に高速化する。
限られたラベル付きデータを活用し、時間的な一貫性を利用することで、効率的にオブジェクトを検出する手法を提案する。