Khái niệm cốt lõi
大規模言語モデル(LLM)の出力における安全性問題を、人間が設定した基準に沿って、カスタマイズ可能かつ説明可能な方法で検出できるLLMベースの安全検出器、ShieldLMを提案する。
Tóm tắt
ShieldLM: 安全でカスタマイズ可能、かつ説明可能な安全検出器としてのLLMを実現
本論文は、大規模言語モデル(LLM)の出力における安全性問題を検出するための、ShieldLMと呼ばれる新しい手法を提案する研究論文である。
LLMは自然言語処理において目覚ましい能力を発揮する一方で、プライバシー情報の漏洩、有害なコンテンツの生成、違法行為の助長など、安全性に関するリスクも指摘されている。LLMの安全な展開を促進するためには、出力における安全リスクを自動的に検出するツールの必要性が高まっている。本研究では、LLMの応答における安全性問題を、人間が設定した基準に沿って、カスタマイズ可能かつ説明可能な方法で検出することを目的とする。
ShieldLMは、以下の3つの特徴を持つLLMベースの安全検出器である。
整合性: ShieldLMは、毒性、偏見、身体的・精神的危害、違法・非倫理的行為、プライバシー・財産、センシティブな話題など、一般的な安全基準に沿って訓練されている。
カスタマイズ性: ShieldLMは、ユーザーが独自の検出ルールを定義し、様々な状況に合わせてカスタマイズすることを可能にする。
説明可能性: ShieldLMは、なぜその入力が安全または安全でないと判断されたのかを説明する自然言語分析を提供し、意思決定プロセスを透明化する。
ShieldLMの構築プロセス
データ収集: まず、様々なLLMを用いて、敵対的な質問に対する応答を生成し、それらの応答の安全性を人間が評価する。この評価には、応答が安全、安全でない、または議論の余地があると分類する。議論の余地がある場合は、注釈者は、その応答を安全でないとみなす厳格なルールと、安全とみなす緩いルールの2つの異なる検出ルールを提供する必要がある。
分析の生成: 次に、収集したデータを用いて、GPT-4に、提供されたラベルと安全ルールに沿った自然言語分析を生成させる。
ShieldLMの訓練: 最後に、収集したデータセットを用いてShieldLMを訓練する。訓練の際には、ShieldLMが様々なルールに適応できるように、無関係なルールも入力に含める。