核心概念
RIBBO 透過將遺憾值整合到優化歷史中,賦予模型識別不同演算法優劣的能力,並根據使用者期望的遺憾值自動生成優化軌跡,從而提升黑盒優化效能。
摘要
論文資訊:
Song, L., Gao, C.-X., Xue, K., Wu, C., Li, D., Hao, J., Zhang, Z., & Qian, C. (2024). Reinforced In-Context Black-Box Optimization. arXiv preprint arXiv:2402.17423v3.
研究目標:
本研究旨在開發一種名為 RIBBO 的增強型上下文黑盒優化方法,該方法可以從離線數據集中學習一個增強的 BBO 演算法,並自動生成滿足使用者期望遺憾值的優化軌跡。
方法:
RIBBO 採用因果 Transformer 模型,並將遺憾值整合到優化歷史中。具體來說,RIBBO 使用一種稱為「後見遺憾重新標記」(HRR)的策略,在每次迭代中將當前遺憾值設為 0,並根據當前樣本評估更新先前的遺憾值。這種設計鼓勵模型在每次迭代中做出最有利的決策,同時確保遺憾值保持有意義且可行。
主要發現:
- RIBBO 在 BBOB 合成函數、超參數優化和機器人控制問題上均取得了優於或至少等同於最佳行為演算法的效能。
- RIBBO 能夠自動識別訓練數據的品質,並在優於訓練數據集的解決方案中實現探索和開發的權衡能力。
- RIBBO 具有良好的泛化能力,可以推廣到具有不同屬性的各種函數,甚至可以推廣到未見過的函數分佈。
主要結論:
RIBBO 是一種通用的黑盒優化方法,它透過將遺憾值整合到優化歷史中,實現了自動化的演算法選擇和效能增強。
意義:
本研究為通用黑盒優化提供了新的思路,並為自動化機器學習和機器人控制等領域提供了潛在的應用價值。
局限性和未來研究方向:
- 本研究僅考慮了具有相同維度的連續搜索空間上的模型訓練,未來可以探索具有不同類型變量的異方差搜索空間。
- 對基於遺憾值的上下文學習能力進行數學理論分析也是一個值得研究的方向。
統計資料
RIBBO 在 Lunacek、Rastrigin 和 XGBoost 問題上分別優於 GP-EI、Eagle Strategy 和 CMA-ES 等最佳行為演算法。
在 SVM 問題上,RIBBO 的效能不如其他行為演算法,這可能是因為該問題的維度較低(只有三個參數)且相對容易優化。
在機器人控制問題上,RIBBO 的效能僅次於 GP-EI,這可能是因為 GP-EI 的數據量較少,限制了 RIBBO 利用其高品質數據的能力。