多目的意思決定問題では、人間や代理人の意思決定者の好みを事前に知ることが困難な場合がある。しかし、意思決定者の実演行動は利用可能な場合が多い。本研究では、多目的意思決定問題における実演から代理人の好みを推論する動的重み付けベースの好み推論(DWPI)アルゴリズムを提案する。
デモンストレーションを活用することで、多目的強化学習の効率と有効性を向上させることができる。自己進化メカニズムを導入することで、初期のデモンストレーションの品質が低い場合でも、学習過程で高性能な政策を獲得できる。