本研究では、CLIP-ViTの画像表現を個々の画像パッチ、モデル層、注意ヘッドに分解し、テキスト表現を用いてそれらの役割を解釈する。
まず、モデルの残差構造を利用して、最後の4つの注意層が画像表現の大部分を直接的に決定していることを示す。
次に、注意ヘッドごとの出力空間をテキスト表現でスパンさせる手法(TEXTSPAN)を提案し、多くのヘッドが特定の画像属性(位置、形状など)を捉えていることを明らかにする。
この知見を活用し、スプリアスな特徴を除去してゼロショット分類精度を向上させたり、ヘッド出力に基づいて属性特異的な画像検索を行うことができる。
さらに、画像パッチごとの寄与を分解することで、ゼロショットセグメンテーションの精度を大幅に向上させる。
最後に、ヘッドごとの画像パッチ寄与を可視化することで、テキスト表現とそれに対応する画像領域の関係を明らかにする。
以上のように、CLIP内部の構造を分解・解釈することで、モデルの振る舞いを理解し、応用タスクの性能向上につなげることができる。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yossi Gandel... om arxiv.org 04-01-2024
https://arxiv.org/pdf/2310.05916.pdfDiepere vragen