本文提出了一種名為 UNIGUARD 的新型多模態安全防護機制,旨在增強多模態大型語言模型 (MLLM) 抵抗針對其漏洞的惡意攻擊(例如:越獄攻擊)的穩健性。
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 취약점인 탈옥 공격을 방어하기 위해 시각 및 텍스트 입력 모두에서 작동하는 범용적이고 강력한 방어 메커니즘인 UniGuard를 제안합니다.
マルチモーダル大規模言語モデル (MLLM) は、従来の安全対策を回避する敵対的な攻撃、すなわち「ジェイルブレイク攻撃」に対して脆弱である。本稿では、画像とテキストの両方の入力における有害な特徴に対処することで、有害なコンテンツの生成の可能性を減らす、新しいマルチモーダル防御フレームワーク「UniGuard」を提案する。