本研究は、視覚的場所認識(VPR)システムの効率を大幅に向上させるための新しい構造化プルーニング手法を提案している。VPRは、ロボットやデバイスが視覚入力に基づいて以前に訪れた場所を認識する重要な機能である。しかし、リアルタイムでの運用を目的とする場合、メモリ消費と潜在時間の最小化が不可欠となる。
本研究では、構造化プルーニングを用いて、特徴抽出ネットワークとリトリーバルステップの両方を最適化することで、効率の向上を図っている。具体的には以下の3つの新しい手法を提案している:
完全畳み込みモデルのプルーニング: 畳み込み層のチャンネルを選択的に削除することで、特徴抽出と記述子の次元を同時に削減する。
MixVPRのプルーニング: 最後の畳み込み層の出力チャンネルを削減し、MLP ブロックの計算コストを低減する。また、記述子の次元も削減する。
NetVLADのプルーニング: クラスタ数を削減することで、記述子の次元を線形に削減する。
これらの手法を適用した結果、メモリ使用量と潜在時間をそれぞれ平均21%および16%削減しながら、精度の低下を1%未満に抑えることができた。さらに、埋め込み空間の分析から、プルーニングは知覚的な混同が高い環境でより大きな影響を受けることが明らかになった。
全体として、本研究の成果は、低コストの資源制限付きプラットフォーム上でも効率的なVPRシステムを展開できることを示しており、軽量モバイルロボットなどの実用的なリアルタイムアプリケーションにつながると期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問