Core Concepts
リアルワールドでの人間-ロボット対話を理解するためのマルチモーダル参照解決タスクを提案し、そのためのデータセット「J-CRe3」を構築した。
Abstract
本研究では、リアルワールドでの人間-ロボット対話を理解するためのマルチモーダル参照解決タスクを提案した。このタスクは、テキストの参照解決、物体検出、テキストと物体の参照解決の3つのサブタスクから成る。
データセット「J-CRe3」は、実際の会話シーンを収録したものである。会話の音声と映像を収録し、発話中の参照表現とそれに対応する物体の位置関係を注釈した。特に、日本語の会話では省略参照が多く見られるため、これらの参照関係も注釈している。
データセットの統計情報を見ると、物体の種類が多様であり、省略参照が直接参照よりも圧倒的に多いことがわかる。これは、リアルワールドの会話理解において省略参照の解決が重要であることを示している。
また、実験的に構築したモデルの評価結果から、テキストの参照解決は既存の単一モーダルのデータセットと同程度の性能が得られたが、テキストと物体の参照解決は課題が残されていることが明らかになった。特に、物体検出の性能が低いことが大きな要因であり、今後の改善が期待される。
Stats
物体検出の再現率(Recall@1)は0.410であり、参照解決の上限性能を示している。
名詞格の参照解決の再現率(Recall@1)は0.064~0.199と低い。
格助詞の参照解決の再現率(Recall@1)は0.035~0.198と非常に低い。