Core Concepts
句子级知识蒸馏更适合于复杂场景,而词级知识蒸馏更适合于简单场景。
Abstract
本文对句子级和词级知识蒸馏在不同场景下的性能进行了全面分析。实验结果表明:
对于学生模型规模较小的场景,句子级蒸馏更有优势;而对于学生模型规模较大的场景,词级蒸馏更有优势。
对于文本复杂度较高的场景,句子级蒸馏表现更出色;而对于文本复杂度较低的场景,词级蒸馏更有优势。
对于解码过程较简单的场景,词级蒸馏更有优势;而对于解码过程较复杂的场景,句子级蒸馏表现更佳。
基于以上分析,作者提出了一种动态门控机制,能够自适应地在句子级和词级蒸馏之间进行权衡,从而在不同场景下取得更好的翻译效果。实验结果证明了该混合方法的有效性。
Stats
学生模型规模越大,两种蒸馏方法的BLEU分数都有所提高。
随着文本复杂度的增加,两种蒸馏方法的BLEU分数都有所下降,但句子级蒸馏的下降幅度较小。
在使用teacher forcing解码时,词级蒸馏的BLEU分数优于句子级蒸馏;而在使用beam search解码时,句子级蒸馏的BLEU分数优于词级蒸馏。
Quotes
"句子级知识蒸馏主要关注于简化训练目标以提高翻译准确性,而词级知识蒸馏则关注于通过更细粒度的知识传递来提高翻译质量。"
"我们假设,句子级蒸馏更适合于'复杂'场景,而词级蒸馏更适合于'简单'场景。"