下载 Linnk AI
•
研究助手
>
登录
洞察
-
半監督式獎勵模型
以半監督式自我訓練提升獎勵模型的效能
透過利用未標記資料來增強獎勵模型的能力,大幅降低對大量人工標記資料的依賴。
1