核心概念
大規模言語モデルから生成されたテキストに、トピックに基づいた透かしを埋め込むことで、人間生成テキストと区別できる。
要約
本研究では、大規模言語モデル(LLM)から生成されたテキストに透かしを埋め込む新しい手法を提案する。従来の透かし手法は、トークンの出現頻度に基づいて透かしを埋め込むが、攻撃に対する頑健性が低く、実用性も低い。
提案手法では、LLMの出力テキストのトピックを抽出し、トピックごとに「許可」と「禁止」のトークンリストを生成する。この2つのリストを使って、LLMの出力に透かしを埋め込む。トピックベースのアプローチにより、透かしの生成と検出が効率的になり、攻撃に対する頑健性も高まる。
具体的には以下の通り:
入力テキストまたは非透かし付きLLMの出力からトピックを抽出する
トピックごとに「許可」と「禁止」のトークンリストを生成する
生成した2つのリストを使って、透かし付きLLMの出力にトピックに基づいた透かしを埋め込む
透かし検出時は、入力テキストのトピックを特定し、対応する2つのリストを用いて透かしの有無を判定する
この手法により、透かしの生成と検出が効率的になり、攻撃に対する頑健性も高まる。また、トピックの変化に伴う出力の質の低下を通じて、攻撃の影響を定量化できる。
統計
LLMから生成される1日あたりの出力は数万件に及ぶ。
従来の透かし手法では、各出力に対して個別の透かしを生成・記録する必要があり、実用的ではない。
引用
"トピックベースのアプローチにより、透かしの生成と検出が効率的になり、攻撃に対する頑健性も高まる。"
"トピックの変化に伴う出力の質の低下を通じて、攻撃の影響を定量化できる。"