Core Concepts
TRIPSは、ビジョンと言語の事前トレーニングを効率的に行うためのアプローチであり、テキストに関連する画像パッチ選択を導入しています。
Abstract
Vision Transformers(ViTs)が大規模なビジョンと言語の事前トレーニング(VLP)モデルで人気を博している。
TRIPSは、ビジュアルシーケンスを進行的に削減し、訓練と推論プロセスを加速する。
TRIPSは、追加のパラメーターを追加せずに動作し、ほとんどのViTベースのVLPモデルに汎化される。
TRIPSは、3つの代表的なVLPモデルに組み込まれており、5つの広く使用されているマルチモーダルベンチマークデータセットで詳細な実験が行われている。
Stats
画像[CLS]トークンによって選択された画像パッチ:木々。 (False)
TRIPSによって選択された画像パッチ:雪と雲。 (True)
画像[CLS]トークンから他のトークンへの注意ヒートマップ。
Quotes
"TRIPSは、ビジュアルエンコードおよびクロスモーダル融合の計算負荷を最小限に抑えます。"
"TRIPSは、訓練および推論効率を向上させます。"