Core Concepts
LLM内のマルチリンガルなジェイルブレイクの存在と、その対策を提案する。
Abstract
大規模言語モデル(LLMs)は様々なタスクで驚異的な能力を示すが、「ジェイルブレイク」問題などの安全上の懸念がある。本研究では、LLMs内にマルチリンガルなジェイルブレイクの課題が存在し、意図的および偶発的なシナリオを考慮している。実験結果は、低リソース言語では有害コンテンツに遭遇する可能性が高く、SELF-DEFENSEフレームワークが効果的であることを示している。
Stats
低リソース言語では有害コンテンツに遭遇する可能性が高まる。
ChatGPTとGPT-4において、意図的シナリオでマルチリンガルプロンプトは危険率を増加させる。
Quotes
"While large language models (LLMs) exhibit remarkable capabilities across a wide range of tasks, they pose potential safety concerns."
"To handle such a challenge in the multilingual context, we propose a novel SELF-DEFENSE framework that automatically generates multilingual training data for safety fine-tuning."