WMDP Benchmark: Unlearning for Hazardous Knowledge
核心概念
Unveiling the WMDP benchmark and CUT method for unlearning hazardous knowledge in AI models.
要約
公開されたWeapons of Mass Destruction Proxy(WMDP)ベンチマークは、バイオセキュリティ、サイバーセキュリティ、および化学セキュリティの危険な知識を測定する。CUTは、一般的な能力を維持しながら有害な知識を削除する方法として開発された。これにより、悪意あるAPIアクセスやジェイルブレイクから保護される可能性がある。さらに、WMDPは特に危険な知識のプロキシ測定として妥当であることが示唆されている。
"WMDP serves as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security."
"To guide progress on unlearning, we develop Contrastive Unlearn Tuning (CUT), a state-of-the-art unlearning method based on controlling model representations."
"CUT significantly reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science."