選好ベースの報酬学習は、ロボットや自律システムにタスク実行方法を教える人気のある技術である。これにより、情報収集効率が向上し、データ効率が改善される。既存の目的は情報ゲインや体積削減などであり、正確なパラメータ同定に焦点を当てている。しかし、本作業では、振る舞い同等性クラスまで報酬関数を最適化することが可能であることを示している。この枠組みは類似性定義を捉えられるものであり、合成環境や自然言語処理問題で優れたパフォーマンスを示している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Evan... lúc arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06003.pdfYêu cầu sâu hơn