Core Concepts
ロボットが環境を探索し、ユーザーが提示した画像と同一のインスタンスを正確に検出・位置特定するための手法を提案する。多視点画像に基づくセマンティックマップを活用し、自己教師学習によるSimSiamのファインチューニングを行うことで、物体インスタンス検索の精度を向上させる。
Abstract
本研究では、ユーザーが提示した画像と同一の物体インスタンスを環境内で正確に検出・位置特定するための手法を提案している。
まず、ロボットが環境を探索し、3Dセマンティックマップを構築する。このマップを活用して、同一物体の多視点画像を収集する。次に、自己教師学習によるSimSiamのファインチューニングを行う。これにより、同一物体の多視点画像の特徴ベクトルの類似性が高まり、物体インスタンス検索の精度が向上する。
具体的には、ロボットが環境を探索しながら物体画像を収集し、3Dセマンティックマップから得られる物体インスタンスIDをラベルとして使用して、SimSiamをファインチューニングする。これにより、同一物体の多視点画像の特徴ベクトルが近接するようになり、ユーザー提示の画像と同一の物体インスタンスを正確に検出・位置特定できるようになる。
提案手法の有効性は、写実的なシミュレータ環境を用いた実験により検証されている。CLIP等の既存手法と比較して、物体インスタンス検索の精度が大幅に向上することが示された。
Stats
同一クラスの物体インスタンスを正しく検出できなかった割合は、提案手法が11%、既存手法が17-38%
異なるクラスの物体を誤って検出した割合は、提案手法が17%、既存手法が19-38%
Quotes
"ロボットが環境を探索し、ユーザーが提示した画像と同一のインスタンスを正確に検出・位置特定するための手法を提案する。"
"多視点画像に基づくセマンティックマップを活用し、自己教師学習によるSimSiamのファインチューニングを行うことで、物体インスタンス検索の精度を向上させる。"