Core Concepts
マルチモーダルな行動データ(視線、発話、環境情報など)を時系列グラフネットワークに統合することで、社会的相互作用ダイナミクスを効果的に表現し、次の発話者予測などの下流タスクに活用できる。
Abstract
本研究では、ロボットなどの知的システムが動的なグループ設定に統合されるための課題に取り組んでいる。人間の行動と内的状態の相互影響を表現する堅牢なモデルが、人間-ロボット協調のために不可欠である。
既存のアプローチは表情や発話に焦点を当てることが多く、より広範な文脈を見落としている。本研究では、時系列グラフネットワーク(TGN)を応用し、視線インタラクション、発話状況、環境情報などのマルチモーダルなデータを統合的に表現する手法を提案している。
TGNモデルは、注視インタラクションのアノテーションデータを用いて、リンク予測問題として学習される。提案手法は、ベースラインモデルに比べて、次の注視予測タスクでF1スコアが37.0%、次の発話者予測タスクで29.0%の改善を示した。
この成果は、人間の状態推定や次の発話者予測などの人間-ロボット相互作用タスクに活用できる社会的相互作用ダイナミクスのモデル化を実現したものである。特に、提案手法は、768要素から14要素まで大幅に圧縮したメッセージ伝達方式を用いながら、ベースラインモデルを上回る性能を示している。
Stats
注視インタラクションを予測するタスクでは、ベースラインモデルと比べてF1スコアが37.0%、精度が24.2%向上した。
次の発話者を予測するタスクでは、ベースラインモデルと比べてF1スコアが29.0%、精度が3.0%向上した。