toplogo
Sign In

リアルワールドでの参照解決のための日本語会話データセット「J-CRe3」


Core Concepts
リアルワールドでの人間-ロボット対話を理解するためのマルチモーダル参照解決タスクを提案し、そのためのデータセット「J-CRe3」を構築した。
Abstract
本研究では、リアルワールドでの人間-ロボット対話を理解するためのマルチモーダル参照解決タスクを提案した。このタスクは、テキストの参照解決、物体検出、テキストと物体の参照解決の3つのサブタスクから成る。 データセット「J-CRe3」は、実際の会話シーンを収録したものである。会話の音声と映像を収録し、発話中の参照表現とそれに対応する物体の位置関係を注釈した。特に、日本語の会話では省略参照が多く見られるため、これらの参照関係も注釈している。 データセットの統計情報を見ると、物体の種類が多様であり、省略参照が直接参照よりも圧倒的に多いことがわかる。これは、リアルワールドの会話理解において省略参照の解決が重要であることを示している。 また、実験的に構築したモデルの評価結果から、テキストの参照解決は既存の単一モーダルのデータセットと同程度の性能が得られたが、テキストと物体の参照解決は課題が残されていることが明らかになった。特に、物体検出の性能が低いことが大きな要因であり、今後の改善が期待される。
Stats
物体検出の再現率(Recall@1)は0.410であり、参照解決の上限性能を示している。 名詞格の参照解決の再現率(Recall@1)は0.064~0.199と低い。 格助詞の参照解決の再現率(Recall@1)は0.035~0.198と非常に低い。
Quotes
なし

Key Insights Distilled From

by Nobuhiro Ued... at arxiv.org 03-29-2024

https://arxiv.org/pdf/2403.19259.pdf
J-CRe3

Deeper Inquiries

リアルワールドの会話理解において、人間の視線や動作がどのように参照解決に影響するか詳しく調べる必要がある。

人間の視線や動作は、参照解決に重要な情報を提供する可能性があります。例えば、人間が特定のオブジェクトを見たり、操作したりすることで、そのオブジェクトが会話の中で重要な役割を果たすことがあります。ロボットが人間と協力してタスクを遂行する場合、人間の視線や動作を理解することは、ロボットが適切な行動を取るために不可欠です。したがって、人間の視線や動作が参照解決にどのように影響するかを詳しく調査し、その情報をシステムに組み込むことが重要です。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star