核心概念
EdgeVLは、大規模なVLモデルをエッジデバイスに効率的に適応させるための革新的なフレームワークです。
要約
最近の進歩により、Vision-Language(VL)モデルが注目されており、EdgeVLはこのギャップを埋めるために開発されました。EdgeVLは、双方向性知識蒸留と量子化感知対比学習をシームレスに統合し、大規模なVLモデルをリソース制限されたデバイスで効率的に使用することを可能にします。このアプローチは、RGBおよび非RGB画像用にCLIPなどの大規模VLモデルを適応させることができます。EdgeVLは、ビジュアル言語整合能力をコンパクトなモデルに移行させるだけでなく、量子化後も特徴品質を維持し、様々なビジュアルモダリティ間でオープンボキャブラリー分類性能を著しく向上させます。これまでの研究ではこれらの領域が孤立して取り扱われていましたが、EdgeVLはこれら2つの領域間の相互作用と潜在的なシナジー効果を探求しています。
統計
EdgeVLは複数のデータセットで最大15.4%の精度向上と最大93倍のモデルサイズ削減を実証しています。
RGB画像と非RGB画像用にCLIP-G教師モデルから学習したStudent (EdgeVL) モデル: モデルサイズ=56MB
引用
"EdgeVLは初めて大規模なVLモデルをエッジ展開用に体系的に適応するフレームワークです。"
"我々は手動注釈不要で多様なビジュアルモダリティで使用するために大規模なVLモデルからビジュアル言語整合能力をコンパクトビジュアルモデルに転送する方法を紹介します。"
"我々は量子化感知トレーニングと対比学習損失を組み込んだ方法も導入しています。"