核心概念
テキストから画像生成モデルにおいて、特定の視覚属性(スタイル、オブジェクト、事実)に関する知識を少数の層に局所化することができる。
要約
本論文では、テキストから画像生成モデルにおける知識の局所化について分析している。
まず、既存の因果追跡手法では、最新のテキストから画像生成モデル(SD-XL、DeepFloyd)において知識の局所化が困難であることを示した。そこで、LOCOGEN手法を提案し、様々なテキストから画像生成モデルにおいて、特定の視覚属性(スタイル、オブジェクト、事実)に関する知識を少数の層に局所化できることを示した。
LOCOGEN手法では、クロスアテンション層に着目し、一部の層に異なる入力プロンプトを与えることで、出力画像の特定の視覚属性を変化させることができる層を特定する。
さらに、LOCOEDIT手法を用いて、LOCOGEN手法で特定した層の重みを編集することで、スタイルの除去、オブジェクトの変更、事実の更新などのモデル編集を行うことができることを示した。
一部のモデル(DeepFloyd)では、知識の局所化が prompt依存的であることも明らかにした。また、スタイルに関する知識は、層レベルだけでなくニューロンレベルでも局所化できることを示した。
統計
'A house in the style of Van Gogh'のプロンプトに対して、Layer 8を編集することでスタイルを除去できる。
'Snoopyのプロンプトに対して、Layer 6を編集することでオブジェクトを変更できる。
'The British Monarch'のプロンプトに対して、Layer 6を編集することで事実を更新できる。