核心概念
大規模言語モデル(LLM)の安全性とセキュリティを強化するために、AI SingaporeとCyberSG R&D Programme Officeが主催する「安全でセキュアなLLMのためのグローバルチャレンジ」のトラック1では、自動化された攻撃手法を用いてLLMの脆弱性を明らかにし、より堅牢なモデルの開発を目指しました。
要約
安全でセキュアな大規模言語モデルのためのグローバルチャレンジ:トラック1の概要と結果
本稿は、AI Singapore (AISG) と CyberSG R&D Programme Office (CRPO) が主催する「安全でセキュアな大規模言語モデルのためのグローバルチャレンジ」のトラック1に関するレポートです。この取り組みは、自動化された攻撃手法を用いてLLMの堅牢性をテストし、潜在的な脆弱性を明らかにすることを目的としています。
目的
商用および研究設定で使用される一般的なLLMのセキュリティ上の弱点(jailbreaking)を特定および理解する(トラック1)。
LLMの堅牢なセキュリティ対策を開発し、高度なjailbreak攻撃に対する耐性を強化する(トラック2)。
期間
トラック1(攻撃):2024年7月2日から2024年9月25日まで。
トラック2(防御):2025年1月開始予定。
構造
トラック1A:参加者は、2つのオープンソースモデル(Llama-2-7b-chat-hfとVicuna-7B)から50個の悪意のある動作を誘発できる自動攻撃モデルを開発する。上位10チームがトラック1Bに進出。
トラック1B:トラック1Aの上位10チームは、3つのモデル(Llama-2-7b-chat-hfと2つの非公開モデル)を用いて、さらに35個の悪意のある動作を誘発するよう求められる。
評価指標
攻撃成功率(ASR):jailbreakに成功した応答の割合。
トラック1A:公開リーダーボードでは、Llama-2-7b-chat-hfとVicuna-7BのASRと、それらの調和平均ASRを表示。非公開リーダーボードでは、3つのLLMすべての調和平均ASRを使用して最終的なランキングを決定。
トラック1B:公開リーダーボードでは、Llama-2-7b-chat-hfのASRを表示。非公開リーダーボードでは、Llama-2-7b-chat-hfと2つの非公開モデルの調和平均ASRを使用してランキングを決定。上位5チームは、主催者による手動評価により、上位3チームが決定される。
リーダーボードランキング
表2、3、4、5は、トラック1Aと1Bの公開および非公開リーダーボードの結果を示しています。
表6は、上位5チームに対する手動評価の結果を示しています。
上位5チームの方法論とアプローチ
本稿では、上位5チームから提供された技術レポートをまとめ、トラック1で使用された方法論とアプローチを詳しく説明しています。