本文透過分析隱藏狀態中編碼的位置信息，特別是位置向量的形成和影響，深入探討了大型語言模型（LLM）在上下文窗口內外的運作機制，並基於此提出了兩種無需訓練的上下文窗口擴展方法。


coremsg

透過分解位置向量探索大型語言模型的上下文窗口


本文提出了一種名為 SharedLLM 的新型架構，旨在解決大型語言模型上下文窗口有限的問題，透過多粒度上下文壓縮和查詢感知信息檢索，在效率和性能之間取得平衡。



透過多粒度自我注入擴展上下文窗口：雙劍合璧



從旋轉角度分佈的角度優化大型語言模型的上下文窗口擴展任務,以最小化分佈擾動,提高模型在長序列上的泛化能力。