モデルが迅速にバックドア脅威を学習解除できる可能性を探求し、新しいトークンベースの局所的な忘却トレーニング方法を導入することで、攻撃成功率を最小限に抑えつつ、モデルの高いクリーン精度を保持する方法が提案されています。