本文介紹了OLAPH框架,這是一個簡單而新穎的框架,利用成本效益和多方面的自動評估來生成合成偏好集,並以我們偏好的方式回答問題。該框架通過逐步學習來減少幻覺並包含關鍵的醫療聲明。即使在訓練期間未使用的評估指標上,通過OLAPH框架訓練的語言模型也顯示在事實性方面有顯著的性能改善。研究結果表明,使用我們的OLAPH框架訓練的7B模型可以生成與醫療專家答案在事實性方面相當的長篇回答。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies