本研究は、大規模言語モデル(LLM)が生成するテキストに、多ビットの情報を埋め込むための符号化可能な透かし技術(CTWL)について初めて体系的に研究を行った。
まず、LLMの透かし技術の分類を行い、CTWLの数学的定式化を提案した。次に、CTWLの評価指標として、(1)透かし検出率、(2)様々な攻撃に対する堅牢性、(3)ペイロード情報の符号化レート、(4)符号化・復号の効率性、(5)生成テキストの品質への影響、の5つを定義した。
これらの指標を満たすため、確率バランスの取れた語彙分割に基づくBalance-Marking手法を提案した。Balance-Markingは、プロキシ言語モデルを使ってボキャブラリを分割することで、生成テキストの品質を維持しつつ、多ビットの情報を効果的に埋め込むことができる。
実験の結果、Balance-Markingは既存手法と比べて、総合的な評価指標において優れた性能を示した。また、LLaMA-7/13Bなどの大規模LLMにも適用可能であることを確認した。本研究は、LLMの悪用を防ぐための重要な技術的基盤を提供するものである。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問