本研究では、ニューロモーフィックビジョンセンサーから得られる非同期なイベントデータを3Dグラフとして構造化し、グラフトランスフォーマーニューラルネットワーク(GTNN)を用いて動体と背景を効率的に分割する手法を提案している。
まず、イベントデータを3Dグラフとして表現し、点変換レイヤーを用いて局所的な時空間相関を抽出する。次に、トランジションダウンモジュールとトランジションアップモジュールを用いて、グラフの次元を圧縮・復元することで、グローバルな特徴も考慮する。これにより、動体と背景の分割が可能となる。
提案手法は、事前知識を必要とせず、イベントデータの前処理も不要である。公開データセットや自作データセットEMS-DOMELを用いた評価実験では、従来手法と比較して高い分割精度を達成している。特に、動的背景の変化、複雑な動作パターン、大小さまざまな動体の存在といった課題に対して頑健な性能を示している。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문