核心概念
本文提出了一種名為 SteerDiff 的輕量級適配器模型,用於提高文字到圖像擴散模型的安全性,透過引導文字提示嵌入而非控制生成過程,有效減少不適當內容的產生,同時保持圖像品質和語義保真度。
摘要
SteerDiff:引導邁向安全的文字到圖像擴散模型
論文資訊
- 作者:Hongxiang Zhang, Yifeng He & Hao Chen
- 機構:加州大學戴維斯分校工程系
- 時間:2024 年 10 月 3 日
研究背景
文字到圖像 (T2I) 擴散模型因其生成高品質圖像的能力而備受關注,然而,這些模型也可能被濫用於產生不適當的內容。現有的安全措施,通常依賴於文字分類器或類似 ControlNet 的方法,但這些方法往往不足以完全阻止不當內容的產生。
研究問題
如何有效地減少文字到圖像擴散模型產生不適當內容的風險,同時保持圖像品質和語義保真度?
研究方法
本文提出了一種名為 SteerDiff 的輕量級適配器模型,其運作方式並非直接控制生成過程,而是透過引導文字提示嵌入來實現。SteerDiff 主要包含兩個階段:
- 不當概念識別器: 該模組利用多層感知器 (MLP) 模型,透過滑動窗口技術識別文字提示中可能包含不當概念的單個詞彙或短語,並將其分類為適當或不適當。
- 安全內容引導: 針對識別出的不當概念,SteerDiff 學習一個線性轉換矩陣,將不安全的嵌入向量轉換為安全的嵌入向量,從而引導擴散模型產生安全的圖像。
實驗結果
- 在 I2P 資料集上,SteerDiff 在減少不當內容生成方面表現最佳,顯著降低了產生包含暴力、色情、仇恨等不當內容的圖像的機率。
- 在面對 P4D 和 SneakyPrompt 等紅隊攻擊方法時,SteerDiff 表現出更強的穩健性,有效抵禦了針對裸露和其他不當內容的攻擊。
- 在 COCO 30k 資料集上,SteerDiff 在保持較高圖像保真度的同時,也確保了生成的圖像與輸入文字提示之間的高度一致性。
研究結論
SteerDiff 為提高文字到圖像擴散模型的安全性提供了一種有效且輕量級的解決方案。透過在文字嵌入空間中識別和引導不當概念,SteerDiff 能有效減少不當內容的產生,同時保持圖像品質和語義保真度。
研究意義
- SteerDiff 為解決文字到圖像生成中的安全問題提供了一種新的思路。
- SteerDiff 的輕量級設計使其易於整合到現有的擴散模型中,而無需對模型進行大量的重新訓練。
- SteerDiff 在概念移除任務中的潛力,為未來研究開闢了新的方向。
統計資料
SD v1.4 在測試提示中產生了 637 張包含裸露身體部位的圖像。
SteerDiff、ESD、SLD STRONG 和 SLD MAX 分別將裸露圖像的數量減少到 104、389、208 和 134 張。
SD v1.4 產生不當內容的機率從 18.16% 到 46.29% 不等。
SteerDiff 將產生不當內容的機率降低了 85% 以上。
SteerDiff 的 FID-30K 得分為 15.45,CLIP 得分為 0.78。
引述
"在這個工作中,我們提出 SteerDiff,一個用於文字條件擴散模型的兩階段輕量級適配器模型,專注於引導文字提示嵌入而不是控制生成過程。"
"我們的方法構建了一個語義邊界,最大限度地將安全和不安全的內容區分開來。"
"然後,我們將潛在的不安全嵌入投射到安全區域,同時保留原始語義並保持擴散模型的生成能力。"