Core Concepts
深層学習モデルの裏口攻撃を検出する逆工学ベースの手法には設計上の弱点がある。本研究では、分類の確信度を操作することで、この弱点を利用して裏口攻撃を回避する新しい攻撃手法を提案する。
Abstract
本研究は、深層学習モデルの裏口攻撃を検出する逆工学ベースの手法に着目し、その設計上の弱点を明らかにしている。
具体的には、これらの手法の目的関数は分類の確信度を表す項と正則化項の2つの主要な要素から構成されていることを示した。従来の裏口攻撃手法は正則化項を中和することに焦点を当ててきたが、本研究では分類の確信度を操作することで正則化項の変動を補償し、逆工学ベースの手法を回避する新しい攻撃手法を提案している。
提案手法では、正則化項の変動に対する下限値を計算する補償モデルを構築し、ラベルスムージングを利用して裏口サンプルの分類の確信度を調整する。これにより、逆工学ベースの手法の目的関数の最小値を逸脱させ、裏口攻撃を検出できなくする。
広範な実験結果から、提案手法が既存の逆工学ベースの防御手法を効果的に回避できることが示されている。また、提案手法は既存の裏口攻撃手法と高い互換性を持つことも確認された。
Stats
裏口攻撃を含むモデルの目的関数の値は、正常モデルのそれよりも小さくなる必要がある。
正常モデルの正則化項の値は50.06、裏口攻撃モデルのそれは14.28であり、その差は0.0358である。
Quotes
裏口攻撃を含むモデルの目的関数の値は正常モデルのそれよりも小さくなる必要がある。
正常モデルの正則化項の値は50.06、裏口攻撃モデルのそれは14.28であり、その差は0.0358である。