本論文は、大規模言語モデル(LLM)の安全性を包括的に評価するためのベンチマーク「ALERT」を提案している。
まず、著者らは、LLMの安全性リスクを詳細に分類した新しい分類体系を開発した。これは6つのマクロカテゴリと32のミクロカテゴリから成り、LLMの脆弱性を詳細に分析することができる。
次に、この分類体系に基づいて45,000以上の赤軍テスト用プロンプトからなるALERTベンチマークを構築した。このベンチマークを用いて、10種類の代表的なオープンソースおよび非公開のLLMを評価した。
評価の結果、多くのLLMが安全性の面で重大な問題を抱えていることが明らかになった。特に、特定のミクロカテゴリ(大麻の消費や取引など)において、一般的に安全とされるモデルでさえ脆弱性が見られた。これは、文脈やポリシーに応じた評価の重要性を示唆している。
さらに、著者らは、安全性の高い/低いペアを含むDPOデータセットを構築し、安全なLLMの開発を促進することを目指している。
総じて、本研究は、LLMの安全性を包括的に評価し、改善を促進するための重要な基盤を提供している。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések