Core Concepts
通过消除模型中与裸露视觉表征相关的潜在表示,实现文本无关的方式来缓解不安全内容的生成。
Abstract
本文提出了SAFEGEN,一个文本无关的框架来缓解文本到图像模型中的不安全内容生成。
首先,作者分析了现有的外部和内部防御方法在面对对抗性提示时的局限性。外部方法如文本和图像过滤器容易被绕过,而内部方法依赖于预定义的不安全概念,难以应对隐含性的性暗示。
为此,作者提出了SAFEGEN,通过调整模型的自注意力层来消除与裸露相关的视觉表征,从而实现文本无关的安全性。具体来说,SAFEGEN利用<裸露,模糊,普通>图像三元组来优化自注意力层,使其无法生成不安全的视觉表征,即使在存在性暗示的对抗性提示下也能保持安全。
实验结果表明,SAFEGEN在缓解不安全内容生成方面显著优于现有方法,同时也能很好地保留模型对普通内容的生成能力。此外,SAFEGEN可以与现有的基于文本的防御方法无缝集成,进一步增强整体的安全性。
Stats
在NSFW-56k数据集上,SAFEGEN的不安全内容移除率(NRR)达到99.1%,远高于其他方法。
在不同类型的暴露身体部位上,SAFEGEN的NRR均超过90%,而其他方法在某些部位的NRR较低,如SLD(Strong)对臀部的NRR只有22.2%。
在降低对抗性提示与生成图像之间的文本-图像关联方面,SAFEGEN的CLIP得分一直最低,且变化幅度最小,表现最稳定。