本コンテンツは、異なる個人の多様な好みをバランスよく扱うためのマルチパーティ強化学習について述べています。従来の単一報酬関数では複数の個人の好みをキャプチャできず、新しいアプローチが必要とされます。提案された枠組みは、メタラーニング技術を活用して個々の報酬を学習し、それらを社会的福祉関数で集約します。サンプル複雑性や効率性、公平性に関する保証も提供されます。さらに、報酬フリー設定でも考慮され、理論的保証が与えられます。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Huiying Zhon... om arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05006.pdfDiepere vragen