オフラインデータを活用することで、オンラインでの学習を促進することができる。ただし、オフラインデータと オンラインの報酬分布が大きく異なる場合、オフラインデータを活用しても従来の手法よりも良い性能は得られない。 提案手法のMIN-UCBは、オフラインデータと オンラインの報酬分布の差を表す上界を利用することで、オフラインデータが有用な場合は性能を向上させ、 そうでない場合は従来手法と同等の性能を維持する。