本コンテンツは、異なる個人の多様な好みをバランスよく扱うためのマルチパーティ強化学習について述べています。従来の単一報酬関数では複数の個人の好みをキャプチャできず、新しいアプローチが必要とされます。提案された枠組みは、メタラーニング技術を活用して個々の報酬を学習し、それらを社会的福祉関数で集約します。サンプル複雑性や効率性、公平性に関する保証も提供されます。さらに、報酬フリー設定でも考慮され、理論的保証が与えられます。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Huiying Zhon... a las arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05006.pdfConsultas más profundas