Główne pojęcia
大規模言語モデル(LLM)のファインチューニングは、安全性を損なう可能性があり、そのリスクを測定するための新しい指標VISAGEが提案されている。
Streszczenie
大規模言語モデルのファインチューニングにおけるリスク測定:安全性の状況把握と新しい評価指標VISAGEの提案
本稿は、大規模言語モデル(LLM)のファインチューニングにおけるリスク測定に焦点を当て、安全性の状況把握と新しい評価指標VISAGEを提案する研究論文である。
LLMは、人間が設定した安全性のガイドラインを回避する可能性があり、悪意のあるファインチューニングによって安全性が損なわれる可能性があることが recent work で示されている。本研究では、LLMの安全性の状況を把握し、ファインチューニングのリスクを定量化するために、モデルの重みを様々な方向に摂動させて探索する「LLM安全ランドスケープ」という概念を導入する。
本研究では、LLaMA2、LLaMA3、Mistral、Vicunaの4つの一般的なオープンソースLLMの安全ランドスケープを分析する。各摂動モデルに対して、AdvBenchの「Harmful Behaviors」 split の最初の80個のプロンプト(Adv 80)を用いて評価を行い、安全性指標としてASR(攻撃成功率)を使用する。1Dおよび2Dの安全ランドスケープを可視化し、ファインチューニングにおける安全性の変化を分析する。