本論文は、大規模言語モデル(LLM)の不正利用を防ぐための防水マーク手法を提案している。従来の防水マーク手法は、トークンのハッシュを用いて語彙を分割するが、これはパラフレーズによって容易に破られてしまう。そこで本手法では、トークンのセマンティクスを用いて語彙を分割することで、パラフレーズに対する頑健性を高めている。
具体的には以下の2つのステップを経て、セマンティクスに基づく防水マークを実現している:
さらに、対比学習を用いてNE-Ringの分布を均一化し、防水マークの隠蔽性を高めている。また、オフセット検出を導入することで、離散値の境界付近の脆弱性に対するロバスト性も向上させている。
実験の結果、提案手法は従来手法に比べて、パラフレーズに対してより高い検出精度を示すことが確認された。一方で、生成テキストの品質にはほとんど影響を与えないことも示された。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Jie Ren,Han ... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.08721.pdfสอบถามเพิ่มเติม