本文提出了SODP,一種利用次優資料訓練通用擴散規劃器的兩階段框架。
預訓練階段:
微調階段:
實驗結果表明,SODP在Meta-World和Adroit基準上均優於現有方法,特別是在只有少量任務獎勵數據的情況下,仍能快速適應並獲得高性能。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Chenyou Fan,... : arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19949.pdfDaha Derin Sorular