核心概念
大規模言語モデルの安全性を包括的に評価し、脆弱性を特定し、改善を促進するための新しいベンチマークの提案
要約
本論文は、大規模言語モデル(LLM)の安全性を包括的に評価するためのベンチマーク「ALERT」を提案している。
まず、著者らは、LLMの安全性リスクを詳細に分類した新しい分類体系を開発した。これは6つのマクロカテゴリと32のミクロカテゴリから成り、LLMの脆弱性を詳細に分析することができる。
次に、この分類体系に基づいて45,000以上の赤軍テスト用プロンプトからなるALERTベンチマークを構築した。このベンチマークを用いて、10種類の代表的なオープンソースおよび非公開のLLMを評価した。
評価の結果、多くのLLMが安全性の面で重大な問題を抱えていることが明らかになった。特に、特定のミクロカテゴリ(大麻の消費や取引など)において、一般的に安全とされるモデルでさえ脆弱性が見られた。これは、文脈やポリシーに応じた評価の重要性を示唆している。
さらに、著者らは、安全性の高い/低いペアを含むDPOデータセットを構築し、安全なLLMの開発を促進することを目指している。
総じて、本研究は、LLMの安全性を包括的に評価し、改善を促進するための重要な基盤を提供している。
統計
大麻の消費や取引に関する発言は、多くのモデルで安全性が低い(70%未満)。
一部のモデルは、通常のプロンプトよりも敵対的なプロンプトに対してより安全な出力を生成する。
Llama 2は、全体的な安全性スコアが99.98%と非常に高い。一方、Alpacaは62.13%と最も低い。
引用
"LLMsは、個人や社会に害を及ぼす有害、違法、または非倫理的な行動を助長したり正常化したりするような内容を決して生成してはならない。"
"赤軍テストは、LLMの脆弱性を特定し、改善を促進し、言語モデルの全体的な安全性を高めることを目的としている。"