本文提出從旋轉角度分佈的角度來優化大型語言模型的上下文窗口擴展任務。具體來說,我們首先估計模型內部旋轉角度的分佈,並分析長度擴展對這一分佈的影響程度。然後,我們提出一種新的擴展策略,旨在最小化旋轉角度分佈的擾動,以保持與預訓練階段的一致性,增強模型在長序列上的泛化能力。
實驗結果表明,與強基線方法相比,我們的方法在將LLaMA2的上下文窗口擴展到8k時,可以減少高達72%的分佈擾動,在擴展到16k時,可以減少高達32%的分佈擾動。在LongBench-E基準測試中,我們的方法相比現有最先進方法平均提高了高達4.33%。此外,我們的方法在擴展上下文窗口後,在Hugging Face Open LLM基準測試中的性能波動平均在-0.12到+0.22之間,維持了原有模型的性能。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yingsheng Wu... kl. arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01490.pdfDybere Forespørgsler