Scarica Linnk AI
•
Assistente di Ricerca
>
Accedi
approfondimento
-
半監督式獎勵模型
以半監督式自我訓練提升獎勵模型的效能
透過利用未標記資料來增強獎勵模型的能力,大幅降低對大量人工標記資料的依賴。
1