Core Concepts
提出了一种名为SyncPool的新颖的消除分词歧义的方法,可以在不改变概率分布的情况下有效解决分词歧义问题,从而提高神经语言隐写术的可靠性和安全性。
Abstract
本文分析了现有的可证明安全的神经语言隐写术方法在处理分词歧义问题时存在的局限性。作者提出了一种名为SyncPool的新方法,通过对候选词池进行分组和同步采样来消除分词歧义,而不会改变原有的概率分布。
具体来说,SyncPool包括以下两个模块:
歧义词池分组:
根据候选词之间的前缀关系,将具有歧义的词汇归类到同一个歧义词池中。
这样可以消除歧义词之间的不确定性,避免在分词和重分词过程中出现信息丢失。
同步采样:
在歧义词池中进行随机采样时,使用双方共享的加密安全伪随机数生成器(CSPRNG)来确保发送方和接收方的采样过程同步。
这样可以确保接收方能够准确提取发送方嵌入的隐藏信息,消除分词歧义。
作者还提供了理论证明,证明SyncPool不会改变原有的概率分布,从计算安全的角度将算法的安全性归结为CSPRNG的安全性。
实验结果表明,SyncPool可以完全消除解码错误,同时对嵌入效率和时间效率的影响也很小,适用于英语和中文等不同语言。
Stats
以下是支持作者关键论点的重要数据:
在不使用任何消歧义算法的情况下,隐写信息的总错误率会随着候选词数量的增加而增加,在英语和中文模型上分别达到2.67%和3.75%。