大規模言語モデル(LLM)の安全性を確保するための軽量なガードレールとして、Sentence-BERTを用いた埋め込みモデルと分類器を組み合わせた手法が提案され、その有効性が示された。
大規模言語モデル(LLM)の安全対策を回避するために、人間が理解できる自然な文章を生成する新しい敵対的攻撃フレームワーク「GASP」が提案された。
本稿では、大規模言語モデル(LLM)のオフ トピックな悪用を検出するための、データを使用しない柔軟なガードレール開発方法論を提案する。これは、LLMを用いて多様なプロンプトの合成データセットを生成し、それを用いてオフ トピックなプロンプトを効果的に検出する分類器をトレーニングすることで実現される。
大規模言語モデル (LLM) は、権威ある情報源からの引用を過度に信頼するように設計されているため、悪意のある攻撃に対して脆弱になる可能性があります。
大規模言語モデル(LLM)に対する新たな敵対的攻撃手法であるDROJは、有害なクエリに対するモデルの拒否応答を回避するように設計されており、LLMの安全対策における潜在的な脆弱性を示唆している。
大規模言語モデル(LLM)は科学研究に大きな可能性をもたらすが、その出力の信頼性と安全性を確保するために、科学分野特有の課題に対応するガードレールを開発する必要がある。
Zer0-Jackは、ゼロ次最適化を用いることで、従来の転移攻撃よりも成功率の高い、ブラックボックス型マルチモーダル大規模言語モデルに対する直接的な脱獄攻撃を可能にする。
大規模言語モデル(LLM)の悪用を防ぐために、従来の堅牢性手法に加えて、新たなJailbreak攻撃を迅速に検知し、対応する「Jailbreak迅速対応」が有効である可能性を示唆している。
ドメイン固有の大規模言語モデル(LLM)は高い専門性を持ちながら、安全性に課題を抱えている。本稿で提案するMERGEALIGNは、ドメインベクトルとアラインメントベクトルを組み合わせることで、ドメイン知識を維持しながら安全性を向上させる効率的な手法である。
大規模言語モデル(LLM)は、悪意のあるプロンプトを一見無害なプロンプトのシーケンスに埋め込むことで、安全対策を回避するように操作できるという脆弱性を抱えている。