핵심 개념
音声、ジェスチャー、シーンコンテキストなどの複数の情報源を統合することで、事前にオブジェクトモデルを定義することなく、さまざまな環境で柔軟かつ適応的に使用できる、堅牢でゼロショットなコマンド理解アルゴリズムが提案されています。
초록
テーブルトップシナリオにおけるコンテキストアウェアなコマンド理解
Gajewski, P., Gonzalez, A. G. C., & Indurkhya, B. (2024). Context-Aware Command Understanding for Tabletop Scenarios. arXiv preprint arXiv:2410.06355v1.
本研究は、テーブルトップシナリオにおいて、人間が音声コマンドとジェスチャー(オブジェクトを指すなど)を組み合わせてロボットに指示を与える際に、ロボットがそれを正確に解釈するための、新しいハイブリッドアルゴリズムを提案することを目的としています。