本文提出了SODP,一種利用次優資料訓練通用擴散規劃器的兩階段框架。
預訓練階段:
微調階段:
實驗結果表明,SODP在Meta-World和Adroit基準上均優於現有方法,特別是在只有少量任務獎勵數據的情況下,仍能快速適應並獲得高性能。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Chenyou Fan,... ที่ arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19949.pdfสอบถามเพิ่มเติม