核心概念
基於 Transformer 的模型在處理長文本時性能下降,因為長文本的嵌入向量會坍縮到一個狹窄的空間,導致資訊丢失,這個現象被稱為「長度崩潰」。
摘要
基於 Transformer 的模型中由長度引起的嵌入崩潰現象
這篇研究論文探討了基於 Transformer 的模型在處理長文本時所面臨的效能下降問題。作者將這種現象歸因於一種稱為「長度崩潰」的現象,即長文本的嵌入向量會坍縮到一個狹窄的空間,導致資訊丢失,進而影響下游任務的效能。
探討基於 Transformer 的模型在處理長文本時效能下降的原因。
驗證「長度崩潰」現象的存在,並分析其對模型效能的影響。
提出解決方案,以減輕長度崩潰現象,並提升模型在長文本上的效能。
作者首先通過實驗觀察到,隨著文本長度的增加,主流嵌入模型的效能會顯著下降。
為了分析原因,作者從頻域角度對自注意力機制進行了嚴謹的分析。
基於分析結果,作者提出了一種名為「溫度縮放」(TempScale)的技術,通過在 softmax 函數中引入溫度參數來減輕長度崩潰現象。