Linnk AI herunterladen
•
Forschungsassistent
>
Anmelden
Einblick
-
大規模言語モデルの安全性アラインメントの脆弱性
大規模言語モデルの安全性アラインメントを逆転させる「エミュレートされた非アラインメント」
大規模言語モデルの安全性アラインメントは、わずかな操作で簡単に逆転させることができ、有害な出力を生み出すことができる。
1