本論文は、大規模言語モデル(LLM)における機械的な忘却に関する新しいアプローチを提案している。LLMは自動的に知的なコンテンツを生成する能力を持つが、セキュリティやプライバシーの問題も抱えている。例えば、LLMはハッキング攻撃や特定のプロンプトによってユーザーのプライバシーを露呈する可能性がある。
この問題に対処するため、本論文では、LLMに機械的な忘却フレームワークを導入する。目的は、LLMが有害、ハルシネーション、プライバシー侵害の応答を生成しないようにしつつ、標準的な出力機能を維持することである。これを実現するために、評価モデルを使ってIgn却が必要な対話を特定する。また、モデルの出力を望ましくない出力から遠ざけるための距離損失を設定する。さらに、望ましい結果に向けてモデルの出力を導くための正の損失を、出力の期待クラスター平均に基づいて定義する。
実験結果は、モデルの性能を大幅に損なうことなく、忘却目標を効果的に達成できることを示している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究