本文提出了SODP,一種利用次優資料訓練通用擴散規劃器的兩階段框架。
預訓練階段:
微調階段:
實驗結果表明,SODP在Meta-World和Adroit基準上均優於現有方法,特別是在只有少量任務獎勵數據的情況下,仍能快速適應並獲得高性能。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Chenyou Fan,... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19949.pdfDybere Forespørgsler