本研究では、ERFSL (Efficient Reward Function Searcher using LLMs)と呼ばれる手法を提案している。ERFSLでは、以下のような特徴がある:
これにより、LLMを白箱型の報酬関数探索器として活用し、カスタム環境における複雑な多目的強化学習課題に対して、効率的に報酬関数を設計・最適化できる。
実験では、水中データ収集タスクに適用し、ゼロショット学習の設定でも、安全性と性能の要件を満たす報酬関数を得られることを示した。また、重み探索においても、初期重み値が大きく外れていても、平均5.2回の反復で要件を満たすことができた。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Guanwen Xie,... lúc arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.02428.pdfYêu cầu sâu hơn