核心概念
本稿では、ディープラーニングモデルに対するバックドア攻撃を緩和するための、学習済みモデルの重みを初期値から意図的に遠ざける新しい微調整手法「距離駆動型デトックス(D3)」を提案する。
摘要
距離駆動型デトックスによるバックドア攻撃の緩和:論文要約
Wei, S., Liu, J., & Zha, H. (2024). Backdoor Mitigation by Distance-Driven Detoxification. arXiv preprint arXiv:2411.09585.
本研究は、学習済み深層学習モデルにおけるバックドア攻撃の影響を軽減するための、効率的かつ効果的な事後学習防御手法を開発することを目的とする。