核心概念
ビジョントランスフォーマーにおける対話型学習を悪用し、わずか121個のサンプルでモデルにバックドアを注入することができる。このバックドアにより、モデルの性能を最大13倍悪化させることができる。
要約
本論文は、ビジョントランスフォーマー(ViT)における対話型学習のバックドアアタックについて研究したものである。
主な内容は以下の通り:
対話型学習を悪用したバックドアアタックには、従来のバックドアアタックとは異なる課題がある。そのため、新しい脅威モデルとメトリクスを提案した。
2つの新しいタイプのバックドアアタックを開発した:
タスク特定型バックドア: 特定のタスクのみを攻撃し、他のタスクは影響を受けない。最大89.90%の性能劣化を達成した。
タスク非依存型バックドア: どのタスクでも攻撃可能。最大13倍の性能劣化を達成した。
プロンプトエンジニアリングやファインチューニングなどの既存の防御手法では不十分であることを示した。新しい防御戦略の必要性を強調した。
統計
提案手法により、最大89.90%の性能劣化を達成した。
提案手法により、最大13倍の性能劣化を達成した。
引用
"ビジョントランスフォーマーにおける対話型学習を悪用し、わずか121個のサンプルでモデルにバックドアを注入することができる。"
"このバックドアにより、モデルの性能を最大13倍悪化させることができる。"