Core Concepts
視覚的注意プロンプトを活用して、モデルの推論プロセスを誘導することで、予測性能を向上させる。
Abstract
本研究では、視覚的注意プロンプトを活用して、モデルの推論プロセスを誘導する新しいフレームワークを提案している。
まず、視覚的注意プロンプトを効果的にモデルの意思決定プロセスに統合する方法を示す。
次に、プロンプトのない画像サンプルでも、プロンプトを持つサンプルからの知識を蒸留することで、予測性能を向上させる注意プロンプト共同学習メカニズムを開発する。
さらに、不完全な視覚的注意プロンプトを自動的に学習して補完する新しいアーキテクチャを提案する。
4つのデータセットでの実験結果から、提案手法が視覚的注意プロンプトの有無に関わらず、予測性能を向上させることが示された。
Stats
視覚的注意プロンプトを活用することで、肺結節分類タスクでは4.6%、膵臓腫瘍分類タスクでは8.5%の精度向上が得られた。
性別分類タスクでは73.36%の精度を達成し、シーン分類タスクでは96.39%の精度を達成した。これらは従来手法と比べて優れた性能である。
Quotes
"視覚的説明(注意)を活用した学習は、ラベルだけでなく説明も使ってモデルの推論プロセスを誘導する。"
"多くの実世界の状況では、モデルを再学習せずに視覚的注意を与えることが望ましい。"