本コンテンツは、異なる個人の多様な好みをバランスよく扱うためのマルチパーティ強化学習について述べています。従来の単一報酬関数では複数の個人の好みをキャプチャできず、新しいアプローチが必要とされます。提案された枠組みは、メタラーニング技術を活用して個々の報酬を学習し、それらを社会的福祉関数で集約します。サンプル複雑性や効率性、公平性に関する保証も提供されます。さらに、報酬フリー設定でも考慮され、理論的保証が与えられます。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor