モデルベースのアプローチがタブラーMDPにおいて最小最適なサンプル複雑性を達成することが示された。
人間中心の目標を最適化するために、オフライン強化学習を使用して、AI支援意思決定をモデル化する方法。
拡散モデリングの強力な生成能力を活用しつつ、計算的に効率的な方法で振る舞いの正則化を実現する。