Core Concepts
事前学習済みトランスフォーマーモデルを効率的にファインチューニングし、外部プロンプト特徴を活用することで、顕著物体検出の性能を向上させる。
Abstract
本研究では、顕著物体検出(Salient Object Detection)のためのパラメータ効率的なファインチューニング手法「EXternal Prompt features Enhanced adapteR Tuning (ExPert)」を提案している。ExPertは、事前学習済みトランスフォーマーモデルのエンコーダをフリーズしたまま、アダプタモジュールとインジェクタモジュールを追加することで、パラメータ数を抑えつつ顕著物体検出性能を向上させる。
アダプタモジュールは、事前学習済みバックボーンをサリエンス検出タスクに適応させる。インジェクタモジュールは、DINO、ViT、BLIPなどの外部プロンプト特徴を注入し、顕著物体の認識を強化する。特に、BLIPの画像-テキストの相互作用特徴を注入することで、セマンティック情報を活用し、複雑な背景や類似物体の識別を改善する。
実験の結果、ExPertは従来のCNN系およびトランスフォーマー系の最先端モデルを大きく上回る性能を示した。特に、ECSSD データセットでは平均絶対誤差(MAE)が0.215と、トランスフォーマー系最先端モデルの21%改善、CNN系最先端モデルの47%改善を達成した。また、トレーニングパラメータ数は80.2Mと少なく、パラメータ効率に優れている。
Stats
顕著物体検出の平均絶対誤差(MAE)は0.215で、トランスフォーマー系最先端モデルの21%改善、CNN系最先端モデルの47%改善を達成した。
顕著物体検出のF値は0.9550、E-measure は0.9707、S-measure は0.9422と、全ての指標で最高性能を示した。
トレーニングパラメータ数は80.2Mと少なく、パラメータ効率に優れている。
Quotes
事前学習済みトランスフォーマーモデルをパラメータ効率的にファインチューニングし、外部プロンプト特徴を活用することで、顕著物体検出の性能を大幅に向上させることができる。
BLIPの画像-テキストの相互作用特徴を注入することで、複雑な背景や類似物体の識別を改善できる。