PipeInfer 是一種新型的大型語言模型推理加速技術,它利用異步流水線推測和早期推理取消等機制,顯著提高了生成速度和系統利用率,同時降低了對推測準確率和互連頻寬的要求。
SuffixDecoding 是一種基於字尾樹的新型預測解碼方法,無需額外模型或微調,即可有效加速大型語言模型的推理速度,尤其適用於結構化輸出任務和多代理 LLM 流程應用。
FIRP 是一種新的推測解碼方法,透過預測未來標記的中間隱藏狀態,能夠在單次前向傳播中生成多個標記,從而顯著提升大型語言模型的推理速度。
大型語言模型 (LLM) 在推理過程中只需激活一小部分關鍵神經元(稱為核心神經元),就能在不損害效能的情況下顯著提高推理速度。
本文提出了一種基於上下文感知的助手模型選擇方法,通過在推理過程中動態選擇最合適的助手模型,以提升大型語言模型在資源受限環境下的推理速度,並在多個任務和模型架構上驗證了該方法的有效性。
本文提出了一種名為 Cerberus 的新型平行解碼框架,通過引入 Cerberus Heads 和基於熵值的閘控機制,在不影響生成品質的前提下,顯著提升了大型語言模型的推理速度。