下载 Linnk AI
•
研究助手
>
登录
洞察
-
大型語言模型自我校準
動態獎勵與提示優化實現語言模型的免調優自我校準
本文提出了一種名為「動態獎勵與提示優化」(DRPO)的新方法,無需微調或人工標註,即可實現大型語言模型的自我校準,並在多個基準測試中展現出超越微調模型的效能。
1