大規模言語モデル(LLM)の出力における安全性問題を、人間が設定した基準に沿って、カスタマイズ可能かつ説明可能な方法で検出できるLLMベースの安全検出器、ShieldLMを提案する。
ランダムな入力変化は、大規模言語モデル(LLM)の安全対策を回避するための、低コストかつ効果的な攻撃手法となりうる。
大規模言語モデル(LLM)はドローンなどのロボットシステムの制御にますます使用されていますが、現実世界のアプリケーションで物理的な脅威や危害を引き起こすリスクは未解明です。本研究では、ドローン制御のための包括的なベンチマークを開発することにより、LLMの物理的安全性を評価する上での重要なギャップに対処します。
本稿では、大規模言語モデル(LLM)の安全性を高めるために、人間のフィードバックの代わりにAIフィードバックを用いたルールベース報酬(RBR)という新しい手法を提案する。
判定用LLMは、トークン分割バイアス、特に絵文字挿入によって悪用可能な、有害コンテンツを見落とす可能性がある脆弱性を抱えている。
大規模言語モデル(LLM)のファインチューニングは、安全性を損なう可能性があり、そのリスクを測定するための新しい指標VISAGEが提案されている。
大規模言語モデル(LLM)は、悪意のあるプロンプトインジェクション攻撃(ジェイルブレイク攻撃)に対して脆弱ですが、本稿では、プロンプト敵対的チューニング(PAT)と呼ばれる新しい防御メカニズムを提案し、モデルの安全性を損なうことなく堅牢性を高めます。
大規模言語モデル(LLM)は、有害なデータを含むデータセットでファインチューニングされると、安全対策が破られてしまう可能性があります。本稿では、この問題に対処するため、安全性を維持しながらユーザーのニーズに合わせたカスタマイズを可能にする新しい手法「Lisa」を提案します。
大規模言語モデル(LLM)に対する敵対的な攻撃手法である「gibberish adversarial suffixes」の生成モデル、AmpleGCG-Plusは、従来モデルよりも高い攻撃成功率を達成し、LLMの安全対策における脆弱性を露呈している。
大規模言語モデル(LLM)の安全性、特に有害コンテンツ生成からの軌道修正能力を、合成選好度を用いた学習により向上させることができる。