本研究では、事象カメラのスパイクデータから深度を推定するための新しいスパイク変換器ネットワークを提案している。このネットワークは、スパイク駆動型の残差学習とスパイク自己注意メカニズムを組み込むことで、従来の浮動小数点演算を必要としない効率的な設計となっている。
さらに、大規模な視覚基盤モデルDINOv2からの知識蒸留を用いることで、限られたデータでも高精度な深度推定を実現している。
実験では、合成データセットと実データセットの両方で評価を行い、既存手法と比較して大幅な精度向上を示している。特に、絶対相対誤差と二乗相対誤差では、それぞれ49%と39.77%の改善が見られた。加えて、提案手法は消費電力の削減にも効果的であることが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問