本文評估了四種最新的人工智慧生成圖像(AIGI)檢測器在不同攻擊情境下的對抗性強健性。研究發現,即使攻擊者無法獲取目標檢測模型的任何資訊,這些檢測器仍然容易受到攻擊,其準確性可大幅降低。這些漏洞在現實世界的社交媒體平台上尤其明顯,因為圖像在上傳時通常會經歷壓縮、模糊等處理,這進一步降低了檢測器的性能。
為了解決這些挑戰,研究提出了一種針對最佳表現(基於CLIP)檢測器的新型防禦機制。該方法能有效緩解攻擊,同時在無攻擊情況下保持高準確率。這是目前針對這類對抗性威脅的首個實用防禦方案。
研究結果表明,即使在現實世界的情況下,攻擊者也能有效地降低人工智慧生成圖像檢測器的準確性,使其無法可靠地識別人工智慧生成的內容。這突出了開發更強大的檢測系統以應對這些對抗性威脅的重要性。
翻譯成其他語言
從原文內容
arxiv.org
深入探究