核心概念
好みベースフィードバックを活用したRLの効率的な実現に焦点を当てる。
统计
人間からのフィードバックを学習する強化学習アルゴリズム(RLHF)は、統計的複雑さ、計算複雑さ、およびクエリ複雑さにおいて効率的である必要がある。
私たちのアルゴリズムは、新しいランダム化されたアクティブラーニング手法を介して問合せ複雑さをさらに最小限に抑えます。
好みベースフィードバックから学習し、統計的複雑さ(後悔)、計算上の複雑さ、および問合せ上の複雑さで効率的なRLアルゴリズムを設計することを目指しています。