Główne pojęcia
単一ストリームモデルの特徴融合能力と双方向ストリームモデルの高速推論能力を統合し、効率的な画像-テキスト検索を実現する。
Streszczenie
本研究では、画像-テキスト検索の効率化を目的として、単一ストリームモデルと双方向ストリームモデルの長所を融合する手法を提案している。
具体的には以下の通り:
- 単一ストリームモデルと双方向ストリームモデルの特徴を統合する統合モジュールを設計し、それぞれの長所を活かす。
- 統合された特徴と分布を用いて、双方向ストリームの学生モデルの性能を高める蒸留手法を提案する。
- 実験の結果、提案手法は零shot及びファインチューニングの両方で優れた性能を示し、モバイルデバイスでの高速な推論を実現できることを確認した。
Statystyki
画像-テキスト検索タスクでは、単一ストリームモデルが双方向ストリームモデルよりも優れた性能を示す。
提案手法を用いることで、双方向ストリームモデルの性能を大幅に向上させることができる。
提案手法を用いたモデルは、Snapdragon 8 Gen3/Dimensity 9300チップ上で、約24.6ms/画像のスキャン速度、約8.0ms/クエリの検索速度、約100MBの実行メモリを実現できる。
Cytaty
"単一ストリームモデルは深い特徴融合を通じてより正確なクロスモーダル整列を達成するが、双方向ストリームモデルはオフラインインデックス化と高速推論に優れている。"
"我々は単一ストリームと双方向ストリームモデルの長所を統合するMulti-teacher Cross-modality Alignment Distillation (MCAD)手法を提案する。"