核心概念
大規模言語モデル(LLM)によって生成されたテキストに人間が編集を加えた場合でも、ウォーターマークを検出するための頑健で適応性の高い手法が必要とされている。
要約
人間による編集を加えられた大規模言語モデルにおける、ウォーターマークの頑健な検出
本論文は、大規模言語モデル(LLM)が生成したテキストに人間が編集を加えた場合でも、ウォーターマークを検出するための新しい統計的手法であるTr-GoFを提案しています。
背景
LLMは人間のようなテキストを生成できるため、誤情報や学術的な盗用のリスクが生じます。ウォーターマーキングは、LLM生成テキストと人間が書いたテキストを区別するための効果的なアプローチとして登場しました。しかし、LLM生成テキストに対する人間の編集は、ウォーターマーク信号を希釈し、既存の検出方法の精度を大幅に低下させてしまいます。
課題
人間の編集プロセスは複雑で予測不可能なため、ウォーターマーク検出の頑健性と適応性が課題となります。従来の合計ベースの検出ルールは、人間の編集によって導入されたノイズに対して脆弱です。
提案手法: Tr-GoF
本論文では、人間の編集を混合モデル検出を通じてモデル化し、編集されたテキストにおけるウォーターマーク検出のための切り捨て適合度検定であるTr-GoFを導入しています。Tr-GoFは、人間の編集レベルやLLMの確率的仕様に関する正確な事前知識を必要とせずに、特定の漸近領域においてGumbel-maxウォーターマークの頑健な検出において最適性を達成することを証明しています。
結果
Tr-GoFは、従来の合計ベースの検出ルールよりも優れた検出効率を達成することを、合成データとオープンソースLLMの両方を使用した実験で示しています。
Tr-GoFは、人間の編集に対して堅牢で適応性の高いLLMウォーターマーク検出のための有望なアプローチを提供します。