Core Concepts
CLIP画像エンコーダの内部構造を分解し、個々の構成要素がどのように最終的な表現に寄与しているかを明らかにする。
Abstract
本研究では、CLIP-ViTの画像表現を個々の画像パッチ、モデル層、注意ヘッドに分解し、テキスト表現を用いてそれらの役割を解釈する。
まず、モデルの残差構造を利用して、最後の4つの注意層が画像表現の大部分を直接的に決定していることを示す。
次に、注意ヘッドごとの出力空間をテキスト表現でスパンさせる手法(TEXTSPAN)を提案し、多くのヘッドが特定の画像属性(位置、形状など)を捉えていることを明らかにする。
この知見を活用し、スプリアスな特徴を除去してゼロショット分類精度を向上させたり、ヘッド出力に基づいて属性特異的な画像検索を行うことができる。
さらに、画像パッチごとの寄与を分解することで、ゼロショットセグメンテーションの精度を大幅に向上させる。
最後に、ヘッドごとの画像パッチ寄与を可視化することで、テキスト表現とそれに対応する画像領域の関係を明らかにする。
以上のように、CLIP内部の構造を分解・解釈することで、モデルの振る舞いを理解し、応用タスクの性能向上につなげることができる。
Stats
最後の4つの注意層を除いた場合でも、ゼロショット分類精度は75.25%から72.77%に低下するにすぎない。
注意ヘッドの役割を考慮して特定の特徴を除去することで、Waterbirdsデータセットの最悪グループ精度を48%から73%に向上させることができる。
提案手法によるゼロショットセグメンテーションの精度は、既存手法と比べて大幅に向上する(Pixel Acc. 75.21%, mIoU 54.50%, mAP 81.61%)。
Quotes
"CLIP画像表現は主に最後の4つの注意層によって構築されている"
"多くの注意ヘッドが特定の画像属性(位置、形状など)を捉えている"
"注意ヘッドの役割を考慮することで、スプリアスな特徴を除去し、ゼロショット分類精度を向上できる"
"画像パッチごとの寄与を分解することで、ゼロショットセグメンテーションの精度を大幅に向上できる"