Khái niệm cốt lõi
本文提出了一種名為 PaDeLLM-NER 的新型平行解碼方法,用於加速大型語言模型在命名實體識別任務中的推理速度,並在保持高預測準確率的同時,顯著縮短了序列長度和推理時間。
研究目標
本研究旨在解決大型語言模型 (LLM) 在命名實體識別 (NER) 任務中推理速度緩慢的問題,並提出了一種名為 PaDeLLM-NER 的新型平行解碼方法,以加速 LLM 在 NER 任務中的推理速度。
方法
PaDeLLM-NER 方法的核心是將原本的序列解碼過程轉變為平行解碼,具體步驟如下:
指令微調的重構: 在訓練階段,將原始的指令微調任務重新構建,使 LLM 能夠預測特定標籤的提及次數,並識別該標籤在整個輸入中的第 n 個提及。
標籤-提及對的推理: 在推理階段,LLM 首先預測所有標籤的提及次數,然後平行預測所有標籤-提及對。
結果聚合和重複項消除: 最後,根據預測概率聚合所有序列的結果,並消除跨標籤的重複提及。
主要發現
PaDeLLM-NER 能夠有效減少每個序列中產生的標記數量,從而縮短推理延遲。
與傳統的自回歸方法相比,PaDeLLM-NER 在英文和中文的平面和嵌套 NER 任務中,都能夠保持甚至提高預測質量。
在零樣本和監督學習場景下,PaDeLLM-NER 的性能均與現有最佳方法相當。
主要結論
PaDeLLM-NER 是一種有效且通用的方法,可以顯著加速 LLM 在 NER 任務中的推理速度,同時保持高預測準確率。
意義
本研究為加速 LLM 在 NER 任務中的推理提供了一種新的思路,並為其他自然語言處理任務的推理加速提供了參考。
局限性和未來研究方向
PaDeLLM-NER 方法需要將訓練樣本數量增加到 m * n 個,其中 m 是標籤數量,n 是提及次數,這可能會增加訓練成本。
未來研究可以探索將 PaDeLLM-NER 應用於其他自然語言處理任務,例如關係抽取和事件抽取。
此外,還可以進一步優化 PaDeLLM-NER 的推理過程,例如通過 KV 緩存重用和帶有提前退出機制的批量推理來減少重複計算。
Thống kê
PaDeLLM-NER 的推理速度比傳統的自回歸方法快 1.76 到 10.22 倍。
在零樣本 NER 任務中,PaDeLLM-NER 的平均 F1 值為 61.68%。
在監督學習的英文 NER 數據集上,PaDeLLM-NER 的平均 F1 值為 85.07%。
在監督學習的中文 NER 數據集上,PaDeLLM-NER 的平均 F1 值為 84.66%。