Основні поняття
本稿では、大規模言語モデル(LLM)のオフ トピックな悪用を検出するための、データを使用しない柔軟なガードレール開発方法論を提案する。これは、LLMを用いて多様なプロンプトの合成データセットを生成し、それを用いてオフ トピックなプロンプトを効果的に検出する分類器をトレーニングすることで実現される。
Анотація
オフ トピック プロンプト検出のための新しい方法論
本稿は、大規模言語モデル(LLM)のオフ トピックな悪用を検出するための、データを使用しない柔軟なガードレール開発方法論を提案する研究論文である。
LLMは、会話エージェント、ドキュメントの抽出、レポートの生成、ワークフローの自動化など、さまざまな分野で利用されている。しかし、LLMは、意図した範囲外のタスクを実行するように促される、オフ トピックな悪用に対して脆弱である。例えば、医療政策に関するチャットボットに、少しのプロンプトでPythonコードを生成させることができる。
オフ トピックなプロンプトを検出するための従来のガードレールメカニズムは、キュレーションされたプロンプトの例やカスタム分類器に依存していることが多く、高い偽陽性率、適応性の制限、実稼働前のデータ不足などの課題がある。