効果的で隠れた清潔ラベルの攻撃: プロンプトベースの学習における対照からの短絡
プロンプトベース学習は、事前学習言語モデルの適応性を高める上で顕著な有効性を示してきたが、このような学習パラダイムは、バックドア攻撃に対して脆弱であることが示されている。現在の清潔ラベル攻撃では、特定のプロンプトをトリガーとして使用することで、外部トリガーを必要とせず、汚染されたサンプルの正しいラベル付けを確保することができるが、一方で、偽の活性化の問題に直面し、より大きな課題を提起している。従来の否定的データ拡張手法では、清潔ラベルの設定において、効果と隠れ性のバランスをとることが困難であることが明らかになった。この問題に取り組むために、我々は、バックドアがショートカットとして機能するという概念に着想を得て、このショートカットはトリガーとデータの対照から生じるものだと考えている。本研究では、活性化値を活用し、トリガーの設計と データ選択戦略を統合したContrastive Shortcut Injection (CSI)と呼ばれる手法を提案する。全量学習と少量学習のテキスト分類タスクで広範な実験を行い、CSIの高い効果と低汚染率での高い隠れ性を実証的に検証する。特に、2つのアプローチが、それぞれ全量学習と少量学習の設定で主導的な役割を果たすことを発見した。