핵심 개념
イベントベースのオプティカルフロー推定とステレオマッチングを、共通の表現空間内での密な対応マッチング問題として再定義することで、単一の統合モデルで両方のタスクを効果的に処理できる。
초록
EMatch: イベントベースのオプティカルフローとステレオマッチングのための統合フレームワーク
この論文は、イベントベースのオプティカルフロー推定とステレオマッチングを単一の統合モデルEMatchで解決する新しいフレームワークを提案しています。
従来手法の問題点
従来のイベントベースビジョン研究では、時間的タスク(オプティカルフロー、オブジェクトトラッキングなど)と空間的タスク(ステレオマッチング、深度推定など)のいずれかに焦点が当てられており、両者の統合は試みられていませんでした。しかし、フロー推定とステレオマッチングはどちらも、密な対応マッチング問題として扱うことができます。
EMatchの概要
EMatchは、時間的再帰型ネットワーク(TRN)と空間的文脈アテンション(SCA)を用いて、初期イベントストリームを共通の表現空間にマッピングします。
- TRNは、イベントボクセルから時間的に特徴を抽出します。イベントは非同期的に発生するため、イベントボクセル表現を取得するためにイベントを蓄積します。TRNは、イベントボクセル内の時間情報を最大限に活用するために、時間的特徴を反復的に抽出します。
- SCAは、イベントが強度変化のあるピクセルでのみトリガーされるため、空間的に不均一に分布しているイベントデータに対応するために、文脈情報を使用して各ピクセルに値を割り当てます。SCAは、自己アテンションと相互アテンションを用いて、空間的文脈をグローバルに集約します。
TRNとSCAによって時間的および空間的に集約されたイベント特徴により、密な対応マッチングのための統合特徴マップが生成されます。この特徴マップを用いて、参照イベントストリームとターゲットイベントストリーム間で類似性を比較し、対応関係を特定することで、フローまたは視差を推定します。
実験結果
DSECベンチマークを用いた実験により、EMatchはオプティカルフロー推定とステレオマッチングの両方において最先端の性能を達成することが示されました。また、EMatchはマルチタスク融合とクロスタスク転移にも優れており、単一の統合アーキテクチャ内で両方のタスクにおいて最先端の性能を達成しています。
結論
EMatchは、イベントベースのオプティカルフロー推定とステレオマッチングを統合的に扱うことができる新しいフレームワークです。EMatchは、時間的および空間的知覚のギャップを埋め、モーションとステレオ推定の同時処理を可能にします。
통계
DSECベンチマークにおいて、EMatchはオプティカルフロー推定とステレオマッチングの両方において最先端の性能を達成。
クロス学習させたモデルは、単一タスク学習させたモデルよりも優れた結果を達成。
イベントサンプリング時間dtを1/10に減らし、イベント数を1/16に減らしたスパースなデータ分布においても、EMatchは他の単一タスクモデルと比較して優れた汎化性能を発揮。
인용구
「フロー推定とステレオマッチングはどちらも、密な対応マッチング問題として扱うことができます。」
「我々は、イベントベースのフロー推定とステレオマッチングを、共通の表現空間内での密な対応マッチング問題として再定義します。」
「実験により、EMatchはマルチタスク融合とクロスタスク転移にも優れており、単一の統合アーキテクチャ内で両方のタスクにおいて最先端の性能を達成することが示されました。」