核心概念
詞素分割方法可以有效提升子詞分詞器的效能,且詞彙表中均衡的詞頻分佈有助於提升語言模型的效能。
作者:Zilong Li
機構:科羅拉多大學波德分校
時間:2024 年 10 月 19 日
本論文介紹了 Team Ryu 提交給 SIGMORPHON 2024 子詞分詞共享任務的方案。作者探討了詞素分割方法是否可以用於子詞分詞器,並採用了兩種方法:統計分割方法 Morfessor 和基於 Transformer 的序列到序列 (seq2seq) 分割模型。實驗結果表明,詞素分割方法可以與常用的子詞分詞器一樣有效。此外,作者還研究了詞彙表對語言模型效能的影響,發現詞頻分佈均衡的詞彙表往往效果更好,而保留高頻詞作為獨立詞元可以實現詞彙表的均衡。