本研究では、大規模言語モデルを活用して人間の意図を予測するシステムを提案している。このシステムは、人間の手のしぐさ、姿勢、表情といった非言語的な情報と、環境の状態や発話といった言語的な情報を組み合わせて、人間の意図を推測する。
具体的には、2層の処理プロセスを持つ。まず、知覚推論層で人間の非言語的な情報を抽出・解釈し、次に、タスク推論層で言語的な情報と環境情報を統合して人間の意図を予測する。
この手法を物体分類タスクに適用し、評価実験を行った。結果、大規模言語モデルが人間の非言語的なしぐさを解釈し、文脈理解と常識知識を活用して人間の意図を正確に予測できることが示された。これにより、人間とロボットの自然で直感的なコラボレーションを実現できる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies