Core Concepts
ロボットが移動中に観察する低品質な画像と、ユーザーが提供する高品質な画像の間のドメインギャップを、対照学習を用いて効果的に解消することで、特定のインスタンスを正確に特定できるようになる。
Abstract
本研究では、ロボットが移動中に観察する低品質な画像と、ユーザーが提供する高品質な画像の間のドメインギャップを解消するための手法を提案している。
まず、ロボットが環境を探索しながら収集した3Dセマンティックマップと物体画像データベースを構築する。次に、少数の高品質画像と大量の低品質画像を用いて、対照学習と分類器の学習を組み合わせた手法(CrossIA)によって、画像エンコーダを微調整する。これにより、同一インスタンスの低品質画像と高品質画像の特徴表現を近づけることができる。
最後に、微調整した画像エンコーダと構築した3Dマップを用いて、ユーザーが提供した高品質の問合せ画像と一致する物体の位置を特定する。
実験の結果、提案手法は従来手法と比べて、インスタンス固有の画像目標ナビゲーションタスクの成功率を3倍以上向上させることができた。これは、対照学習によるドメインギャップの解消が重要であることを示している。
Stats
ロボットが観察した低品質画像と、ユーザーが提供した高品質画像の特徴表現を近づけることで、タスクの成功率を3倍以上向上できた。
少数の高品質画像を用いた場合でも、対照学習と敵対的学習を組み合わせることで、ドメインギャップを解消できた。
Quotes
"ロボットが移動中に観察する低品質な画像と、ユーザーが提供する高品質な画像の間のドメインギャップを、対照学習を用いて効果的に解消することで、特定のインスタンスを正確に特定できるようになる。"
"提案手法は従来手法と比べて、インスタンス固有の画像目標ナビゲーションタスクの成功率を3倍以上向上させることができた。"