モデルベース強化学習では、環境のダイナミクスモデルを学習し、その予測に基づいて最適な行動を見つけ出す。しかし、モデルの予測誤差が大きい場合、想像された軌道を信頼できない。本研究では、想像された軌道の信頼性を オンラインで評価する手法を提案し、不要な軌道の再計算を回避することで計算コストを大幅に削減する。