ロボットが環境を探索し、ユーザーが提示した画像と同一のインスタンスを正確に検出・位置特定するための手法を提案する。多視点画像に基づくセマンティックマップを活用し、自己教師学習によるSimSiamのファインチューニングを行うことで、物体インスタンス検索の精度を向上させる。