本研究では、ユーザーが提示した画像と同一の物体インスタンスを環境内で正確に検出・位置特定するための手法を提案している。
まず、ロボットが環境を探索し、3Dセマンティックマップを構築する。このマップを活用して、同一物体の多視点画像を収集する。次に、自己教師学習によるSimSiamのファインチューニングを行う。これにより、同一物体の多視点画像の特徴ベクトルの類似性が高まり、物体インスタンス検索の精度が向上する。
具体的には、ロボットが環境を探索しながら物体画像を収集し、3Dセマンティックマップから得られる物体インスタンスIDをラベルとして使用して、SimSiamをファインチューニングする。これにより、同一物体の多視点画像の特徴ベクトルが近接するようになり、ユーザー提示の画像と同一の物体インスタンスを正確に検出・位置特定できるようになる。
提案手法の有効性は、写実的なシミュレータ環境を用いた実験により検証されている。CLIP等の既存手法と比較して、物体インスタンス検索の精度が大幅に向上することが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問