Core Concepts
大言語モデルの文脈学習は、データ毒殺攻撃に対して脆弱であり、攻撃者が例示データを操作することで、モデルの性能を大幅に低下させることができる。
Abstract
本研究では、大言語モデルの文脈学習(ICL)の脆弱性を明らかにするため、ICLPoison と呼ばれる新しい攻撃フレームワークを提案している。
- ICLPoison は、モデルの隠れ状態を戦略的に歪めることで、ICLの性能を大幅に低下させることができる。
- 3つの異なる攻撃手法(同義語置換、文字置換、敵対的接尾辞)を提案し、様々なモデルとタスクに対して評価を行った。
- 実験の結果、ICLの性能が大幅に低下することが示された。特に、GPT-4などの高度なモデルでも10%以上の精度低下が確認された。
- これらの発見は、ICLの信頼性と安全性を高めるための防御メカニズムの緊急性を示唆している。
Stats
文脈学習(ICL)の精度は、隠れ状態の歪みに非常に敏感である。
隠れ状態の全層にわたる歪みの方が、特定の層のみの歪みよりも、ICLの性能をより大きく低下させる。
Quotes
「大言語モデルの文脈学習は、データ毒殺攻撃に対して脆弱であり、攻撃者が例示データを操作することで、モデルの性能を大幅に低下させることができる。」
「これらの発見は、ICLの信頼性と安全性を高めるための防御メカニズムの緊急性を示唆している。」