本文透過分析隱藏狀態中編碼的位置信息,特別是位置向量的形成和影響,深入探討了大型語言模型(LLM)在上下文窗口內外的運作機制,並基於此提出了兩種無需訓練的上下文窗口擴展方法。
本文提出了一種名為 SharedLLM 的新型架構,旨在解決大型語言模型上下文窗口有限的問題,透過多粒度上下文壓縮和查詢感知信息檢索,在效率和性能之間取得平衡。
從旋轉角度分佈的角度優化大型語言模型的上下文窗口擴展任務,以最小化分佈擾動,提高模型在長序列上的泛化能力。