本論文では、テキストから画像生成(T2I)モデルの安全性を高めるLatent Guardフレームワークを提案している。
まず、大規模言語モデルを使ってテキストから画像生成の安全性に関する訓練データを生成する。次に、テキストエンコーダの潜在表現空間上で有害な概念の検出を行うための学習手法を提案する。具体的には、有害な概念と入力テキストの潜在表現の類似性を高めるように学習を行う。
この手法により、入力テキストに含まれる有害な概念を潜在表現空間上で効率的に検出できる。また、テスト時に検出対象の概念を柔軟に変更できるため、新しい有害概念に対しても迅速に対応できる。
提案手法は、既存の安全性確保手法と比較して、様々な攻撃手法に対して頑健な性能を示す。特に、テキストエンコーダを標的とした攻撃に対しても、良好な一般化性能を発揮する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問