核心概念
長文コンテキストを扱う大規模言語モデル(LLM)は、安全性に関する課題を抱えており、包括的な安全性評価ベンチマークと効果的な改善策が必要とされている。
摘要
LongSafetyBench:長文コンテキストを扱う大規模言語モデルにおける安全性問題の課題
本稿では、長文コンテキストを扱う大規模言語モデル(LLM)の安全性評価に焦点を当てた研究論文について解説する。
近年、LLMの急速な発展に伴い、そのコンテキスト長も飛躍的に拡張され、長文テキスト処理能力が大幅に向上している。しかし、従来のLLM評価は主にその能力面に焦点を当てており、安全性に関する研究は不足していた。短文コンテキストにおけるLLMの安全性問題は既に広く研究されているが、長文コンテキストにおける安全性については包括的な研究が不足している。
本論文では、長文コンテキストにおけるLLMの安全性を客観的かつ包括的に評価するために、新たなベンチマークであるLongSafetyBenchを提案している。LongSafetyBenchは、違法行為、誤情報による危害、攻撃性と偏見という3つの安全でないシナリオを対象とした10種類のタスクで構成され、データの長さは数千から数十万トークンに及ぶ。
LongSafetyBenchのタスク設計
LongSafetyBenchのタスクは、コンテキスト(C)、質問(Q)、選択肢(On)の3つの要素で構成され、モデルは選択肢の中から適切な応答を選択する必要がある。
完全に有害なコンテキスト
犯罪小説や有害な対話例を用いて、モデルが違法行為を含む長文テキストの影響を受けて安全でない行動を示すかどうかを評価する。
部分的に有害なコンテキスト
合成文書、無関係な文書、実際の文書に有害な情報を挿入し、モデルが有害情報を特定し、安全な応答を提供できるかどうかを評価する。
無害なコンテキスト
有害な情報がない場合でも、モデルが安全でない行動を示す可能性を評価する。例えば、医療知識を用いた質問応答タスクや政治的に中立性を保つ必要があるタスクなどが含まれる。