Core Concepts
提案するOCGECフレームワークは、グラフニューラルネットワーク(GNN)の表現能力を活用し、モデルレベルの裏口攻撃を効果的に検出する。
Abstract
本研究は、DNNモデルの裏口攻撃を検出するための新しいOne-class Graph Embedding Classification (OCGEC)フレームワークを提案する。
まず、モデルの構造情報と重みをグラフデータに変換する手法を開発する。次に、事前学習されたグラフオートエンコーダ(GAE)を使ってグラフ表現を学習し、One-class分類手法であるDeep SVDDを適用することで、正常なモデルと裏口モデルを識別する。
実験の結果、提案手法はさまざまなデータセットと攻撃手法に対して高い検出精度を示し、既存の手法を大きく上回る性能を発揮することが確認された。特に、攻撃手法の情報を必要とせず、少量の正常データのみで学習できるため、実世界での適用が期待できる。
Stats
正常なtinyモデルの分類精度は2%の少量データでも44.61%±0.03%を達成した。
裏口tinyモデルの分類精度は97%以上、攻撃成功率は99%以上に達した。
Quotes
"DNNsは裏口攻撃に対して脆弱であり、重要なアプリケーションへの展開に深刻な懸念を引き起こしている。"
"既存の検出手法は攻撃手法に関する事前知識を必要とし、訓練データへのアクセスを前提としているため、実世界での適用が限られている。"