Concepts de base
モデルとターゲット分布に基づいた効果的なトレーニングデータ生成の方法を提案する。
Stats
指定された監督モデルから逆誤差勾配法を使用してAdversarial Prompts(AP)を見つけます。
CLIPガイダンスを追加し、特定のターゲット分布に適応したGuided Adversarial Prompts(GAP)を見つけます。
Citations
"An automatic way to do so is via adversarial optimization, which finds the “worst case” failure modes of f."
"We propose two feedback mechanisms to find prompts for generating useful training data."