核心概念
Proposing EventBind framework for event-based recognition to bridge modality gaps and achieve state-of-the-art accuracy.
要約
本論文では、EventBindフレームワークを提案し、イベントベースの認識においてモダリティのギャップを埋め、最先端の精度を達成します。このフレームワークは、CLIPの潜在能力を活用して大規模なデータセット不足を補うことができます。イベントエンコーダー、テキストプロンプト、およびHTCAモジュールなどの主要コンポーネントが効果的であることが示されました。
統計
N-Caltech101データセットで新たな最先端精度を達成(+5.34%)
N-Imagenetデータセットで新たな最先端精度を達成(+5.65%)
N-MNISTデータセットで新たな最先端精度を達成(+1.70%)
引用
"Event cameras perceive the per-pixel brightness changes asynchronously and output event streams, encoding the time, pixel location, and polarity of intensity changes."
"Our EventBind achieves new state-of-the-art accuracy compared with the previous methods."
"With the HTCA module, we can effectively bridge the modality gap and facilitate efficient knowledge transfer among the three modalities."