Core Concepts
話者の非言語的な身体的手がかりを解釈・活用することで、発話の対話相手を推定する能力を社会ロボットに付与する。
Abstract
本研究では、話者の顔画像と姿勢ベクトルという2つの視覚的入力モダリティを用いて、深層学習ハイブリッドモデル(CNN+LSTM)を開発し、発話の対話相手を推定する能力を社会ロボットに付与することを目的としている。
発話の開始から0.8秒以内に、話者の対話相手の位置(左、ロボット、右)を推定できる。
発話が長くなるほど、推定精度が向上する。
顔情報と姿勢情報を統合的に活用することで、従来のモデルよりも高い精度を達成できる。
提案モデルは、ロボットの視点から収集されたデータを用いて訓練されているため、実環境でのインタラクションに適した設計となっている。
今後の課題として、多人数環境への対応や、音声情報の活用などが挙げられる。
Stats
発話の開始から0.8秒後の推定精度は74.15%である。
発話全体を考慮した場合の推定精度は76.48%に達する。