提案手法DRUnknownは、記録ポリシーと価値関数の両方が未知の状況でも、片方のモデルが正しく指定されていれば一致性を持つ新しい双頑健オフポリシー評価推定量である。記録ポリシーモデルが正しく指定されている場合、DRUnknownは既存の推定量の中で最も効率的であり、さらに価値関数モデルも正しく指定されている場合は半parametric下限に達する最適性を持つ。
状態ベースの重要度サンプリングは、重要度サンプリングの分散を低減し、オフポリシー評価の精度を向上させる。