Core Concepts
テキストから画像を生成するモデルにおいて、特定の概念を安全に消去する手法を提案する。従来の手法は特定のユーザー入力に依存しているが、本手法は入力に依存せずに概念を消去できる。
Abstract
本論文では、テキストから画像を生成するモデルにおいて、特定の概念を安全に消去する手法を提案している。従来の手法は特定のユーザー入力に依存しているため、予期せぬ入力に対して脆弱であるが、本手法は入力に依存せずに概念を消去できる。
まず、入力依存型と入力非依存型の概念消去手法を比較し、入力非依存型の手法が優れていることを示す。次に、Task Vectorsと呼ばれる手法を用いて、入力非依存型の概念消去を実現する。しかし、Task Vectorsを用いた消去は、モデルの本来の機能を損なう可能性がある。
そこで、Diverse Inversionと呼ばれる手法を提案する。これは、対象の概念を生成する多様な入力トークンを見つけ出し、それらを用いてTask Vectorsの編集強度を適切に設定する。これにより、概念消去と本来の機能の両立を図ることができる。
さらに、Task Vectorsの編集対象となるモデルパラメータを選択的に行うことで、より効果的な概念消去と機能保持のバランスを取ることができる。
本手法は、テキストから画像を生成するモデルの安全性を高める上で有効であり、他のモダリティのモデルにも応用可能であると考えられる。
Stats
従来の概念消去手法は、特定のユーザー入力に依存しているため、予期せぬ入力に対して脆弱である。
Task Vectorsを用いた概念消去は、入力に依存せずに概念を消去できる。
Diverse Inversionにより、概念消去と本来の機能の両立を図ることができる。
選択的なTask Vectorsの編集対象パラメータ選択により、より効果的な概念消去と機能保持のバランスを取ることができる。