Core Concepts
Harry PotterをLLMから削除することは、報告されているよりも難しい。
Abstract
この論文では、最近の研究が「モデルがハリー・ポッター関連のコンテンツを生成または思い出す能力を効果的に消去する」と主張したが、その主張が広範囲すぎることを示しています。数回の試行で、Harry Potterに言及する特定の記述が繰り返し現れたことが示されました。実験では、Harry Potterに関連するフレーズや用語を含むプロンプトに対するモデルの反応が検証されました。結果は、Erdan and Russinovichの目標である「ターゲットナレッジの根絶」に挑戦し、「ターゲットナレッジの残滓」が存在することを示しています。さらに、Harry Potterや他の有名人に関連したプロンプトへの反応を評価し、その意味や評価方法について考察しています。
Setup:
Eldan's model was used for the experiments.
Ollama tool was utilized to convert the model to gguf format.
Test Design:
Three test strategies were prepared: Archetypes, Missed terms, Uneliminable phrases.
Experiment and Results:
After a dozen tests, Harry Potter was explicitly mentioned twice.
Responses included mentions of fantasy novels and characters similar to Voldemar.
Discussion:
The goal of eradicating targeted knowledge is discussed.
The persistence of remnants of targeted knowledge is highlighted.
Anchoring and security analysis:
Avoiding anchoring effects in experiments is emphasized.
Alternative titles:
Various alternative titles for the paper are presented humorously.
Stats
"we effectively erase the model’s ability to generate or recall Harry Potter-related content."
"A small experiment of less than a dozen trials led to repeated and specific mentions of Harry Potter."
"After roughly a dozen tests, the model had both mentioned Harry Potter by name."