本研究探討大型語言模型 (LLM) 如何透過類似於上下文對齊的自我修正過程來提升自身能力,並證明 Transformer 模型能夠利用自我修正樣本,在上下文情境下學習並生成更優質的回應。
本文提出了一種名為「自我修正鏈」(CoSC)的新機制,透過將自我修正能力嵌入大型語言模型(LLM)中,提升其數學推理能力。
本文提出了一種名為 DECRIM 的自我修正流程,用於增強大型語言模型在處理包含多重約束條件指令時的效能,並引入了一個基於真實使用者請求的全新基準測試資料集 REALINSTRUCT。
大型語言模型 (LLM) 可透過名為「漸進式修正」(PROCO) 的新型提示方法,在沒有外部回饋的情況下,進行自我修正並提高推理能力。