Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
大規模言語モデルの安全性アラインメントの脆弱性
大規模言語モデルの安全性アラインメントを逆転させる「エミュレートされた非アラインメント」
大規模言語モデルの安全性アラインメントは、わずかな操作で簡単に逆転させることができ、有害な出力を生み出すことができる。
1