Belangrijkste concepten
本稿では、事前学習済みモデルのバックボーンを凍結し、画像とテキストの両方の特徴量を表現するために共有パラメータを用いる「ユニバーサルプロジェクション」(UP)モジュールを導入することで、オープンボキャブラリー物体検出システムのトレーニングに必要なパラメータ数を大幅に削減する軽量なフレームワークを提案する。
Samenvatting
軽量なオープンボキャブラリー物体検出のための新しいフレームワーク
本稿では、オープンボキャブラリー物体検出システムのトレーニング効率を大幅に向上させる新しい手法が提案されています。この手法は、テキストと画像の両方のモダリティを理解する大規模な事前学習済みモデルの恩恵を受けながら、トレーニングに必要な計算リソースを大幅に削減します。
従来の物体検出手法は、固定されたカテゴリセットに制限されており、柔軟性や適応性に欠けていました。近年、テキストと画像の両方のモダリティを理解する大規模な事前学習済みモデルの出現により、オープンボキャブラリー物体検出が可能になりました。しかし、これらの手法は、テキストと画像のエンコーディングに大規模なモデルに依存しているため、トレーニングに膨大な計算能力とデータセットを必要とするという課題がありました。
本稿では、これらの課題に対処するために、トレーニングの要求を大幅に削減しながらも性能を維持する新しい手法が提案されています。この手法の核となるのは、事前学習済みのResNetとRoBERTaモデルを凍結し、「ユニバーサルプロジェクション」(UP)モジュールと呼ばれる単一のコンポーネントのトレーニングに焦点を当てることです。
ユニバーサルプロジェクション(UP)モジュール
UPモジュールは、共有パラメータを使用して、凍結されたテキストエンコーダと画像エンコーダの両方からの特徴量を効率的にエンコードします。このモジュールは、各特徴量のソースを識別する「モダリティトークン」と呼ばれる学習可能なパラメータを組み込むことで、テキストと画像の特徴量の処理をシームレスに切り替えることができます。