本研究では、人間が描ける解釈可能な攻撃「Adversarial Doodles」を提案している。Adversarial Doodlesは、ベジェ曲線を最適化することで生成される。ランダムな affine 変換を導入し、描かれた領域を正則化することで、人間が手描きでも分類器を誤認識させることができる小さな攻撃を得ることができる。
Adversarial Doodlesは、人間が描いた落書きの形状と分類器の出力の関係について分かりやすい洞察を提供する。例えば、ヘリコプターの画像に3つの小さな円を追加すると、ResNet-50分類器がそれを飛行機と誤認識するといった具合である。このような洞察を得ることで、Adversarial Doodlesは分類器のメカニズムを理解するための有用なツールとなる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問