本研究は、深層学習モデルの裏口攻撃を検出する逆工学ベースの手法に着目し、その設計上の弱点を明らかにしている。
具体的には、これらの手法の目的関数は分類の確信度を表す項と正則化項の2つの主要な要素から構成されていることを示した。従来の裏口攻撃手法は正則化項を中和することに焦点を当ててきたが、本研究では分類の確信度を操作することで正則化項の変動を補償し、逆工学ベースの手法を回避する新しい攻撃手法を提案している。
提案手法では、正則化項の変動に対する下限値を計算する補償モデルを構築し、ラベルスムージングを利用して裏口サンプルの分類の確信度を調整する。これにより、逆工学ベースの手法の目的関数の最小値を逸脱させ、裏口攻撃を検出できなくする。
広範な実験結果から、提案手法が既存の逆工学ベースの防御手法を効果的に回避できることが示されている。また、提案手法は既存の裏口攻撃手法と高い互換性を持つことも確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Beichen Li,Y... at arxiv.org 04-22-2024
https://arxiv.org/pdf/2404.12852.pdfDeeper Inquiries