Multimodal Large Language Model Security

マルチモーダル大規模言語モデルに対するジェイルブレイク攻撃のための普遍的な安全対策：UniGuard

マルチモーダル大規模言語モデル (MLLM) は、従来の安全対策を回避する敵対的な攻撃、すなわち「ジェイルブレイク攻撃」に対して脆弱である。本稿では、画像とテキストの両方の入力における有害な特徴に対処することで、有害なコンテンツの生成の可能性を減らす、新しいマルチモーダル防御フレームワーク「UniGuard」を提案する。

UniGuard：針對多模態大型語言模型之越獄攻擊，邁向通用的安全防護

멀티모달 대규모 언어 모델의 탈옥 공격에 대한 보편적 안전 가드레일: UniGuard

マルチモーダル大規模言語モデルに対するジェイルブレイク攻撃のための普遍的な安全対策：UniGuard