本論文では、ヒューマン-ロボットコラボレーションにおいて、より自然な方法でロボットとコミュニケーションを取るための手法を提案している。
具体的には、複数のモダリティ(ビジョン、言語、ジェスチャーなど)からの情報を状況に応じて適切に融合し、ロボットの意図を認識する手法を提案している。
従来のアプローチは単一のモダリティに依存するか、非常に固定的で、欠落、ずれ、ノイズのある入力に対して頑健ではなかった。
本手法は、センサーフュージョンのアプローチから着想を得て、複数のモダリティからの不確実な情報を融合し、状況認識(物体の特性や環境設定の考慮など)によって強化している。
まず、シミュレーションによるバイモーダル(ジェスチャーと言語)データセットを用いて提案手法を評価し、システムの各コンポーネントの重要性と、ノイズ、欠落、ずれのある観測に対する頑健性を示している。
次に、実際のセットアップでも実装・評価を行っている。
ヒューマン-ロボットインタラクションでは、選択された行動が十分な確率で実行可能であるかどうかを判断し、必要に応じてユーザに確認を求める必要がある。
このため、エントロピーに基づく適応的なしきい値設定メカニズムを提案し、fine-tuned固定しきい値と同等の性能を示している。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Petr Vanc,Ra... alle arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01702.pdfDomande più approfondite