Kernkonzepte
提出了深CLAS模型,通过偏置损失、改进偏置注意力查询、使用细粒度偏置信息编码以及直接利用偏置注意力得分等方式,更有效地利用上下文信息,显著提高了稀有词的识别性能。
Zusammenfassung
本文提出了深CLAS模型,旨在更好地利用上下文信息来提高自动语音识别的性能,特别是对于稀有词的识别。
首先,作者分析了CLAS模型的不足之处:
- CLAS模型通过在参考文本中插入""标记来引导模型关注上下文信息,但模型有时会忽略上下文信息直接输出""。
- CLAS模型使用上一时刻的解码状态作为偏置注意力的查询,缺乏最近识别词和当前声学上下文信息,影响了偏置注意力的准确性。
- CLAS模型使用粗粒度的偏置信息编码,可能无法充分编码长偏置词的信息。
- CLAS模型将上下文信息馈送到解码器,但模型可能并未充分利用这些信息。
为此,深CLAS模型做出了以下改进:
- 引入偏置损失,强制模型关注偏置词。
- 将上一时刻解码输出、上一时刻解码状态和当前声学上下文一起作为偏置注意力的查询,提高了注意力的准确性。
- 使用字符级偏置信息编码,获取更细粒度的上下文信息。
- 直接利用偏置注意力得分来修正模型输出概率分布,更好地利用上下文信息。
- 引入前缀树,减少长偏置词场景下无关偏置词的干扰。
在AISHELL-1数据集上的实验结果表明,与CLAS基线相比,深CLAS模型在命名实体识别场景下,相对召回率提高了65.78%,相对F1值提高了53.49%。
Statistiken
与CLAS基线相比,深CLAS模型在命名实体识别场景下,相对召回率提高了65.78%。
与CLAS基线相比,深CLAS模型在命名实体识别场景下,相对F1值提高了53.49%。
Zitate
"CLAS使用最后一个解码状态作为偏置注意力的查询,缺乏最近识别词和当前声学上下文信息,影响了偏置注意力的准确性。"
"CLAS使用粗粒度的偏置信息编码,可能无法充分编码长偏置词的信息。"
"CLAS将上下文信息馈送到解码器,但模型可能并未充分利用这些信息。"