最近の進歩により、Vision-Language(VL)モデルが注目されており、EdgeVLはこのギャップを埋めるために開発されました。EdgeVLは、双方向性知識蒸留と量子化感知対比学習をシームレスに統合し、大規模なVLモデルをリソース制限されたデバイスで効率的に使用することを可能にします。このアプローチは、RGBおよび非RGB画像用にCLIPなどの大規模VLモデルを適応させることができます。EdgeVLは、ビジュアル言語整合能力をコンパクトなモデルに移行させるだけでなく、量子化後も特徴品質を維持し、様々なビジュアルモダリティ間でオープンボキャブラリー分類性能を著しく向上させます。これまでの研究ではこれらの領域が孤立して取り扱われていましたが、EdgeVLはこれら2つの領域間の相互作用と潜在的なシナジー効果を探求しています。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询