核心概念
視線情報を活用することで、日本語の質問に含まれる指示語や省略表現の曖昧さを解消し、正確な回答を生成することができる。
摘要
本研究では、視線情報を活用して日本語の曖昧な質問に回答するためのデータセット「GazeVQA」を構築した。GazeVQAは、画像中の話者の視線情報を利用して、指示語や省略表現を含む曖昧な日本語質問に対する回答を生成するタスクを想定している。
データ収集の手順は以下の通りである:
- Gazefollow データセットから14,000枚の画像と視線情報を選択
- クラウドソーシングを通じて、視線情報を活用して回答できる曖昧な日本語質問と回答を収集
- 収集した質問と回答を精査し、17,276問の質問-回答ペアを選定
- テストセットの質問に対して、10個の回答を追加で収集
GazeVQAの特徴は以下の通りである:
- 質問の46.46%が一意的であり、回答の33.87%が一意的
- 質問の81.85%が「何」の質問で、12.04%が「どこ」や「どのように」の質問
- 曖昧な質問では主格や目的格の省略が多く見られる
さらに、視線情報を活用してGazeVQAタスクの精度を向上させるモデルを提案した。提案モデルは、ClipCapベースラインにアダプターを追加したものである。アダプターは、画像全体と視線領域の特徴を統合することで、曖昧な質問に対する回答精度を向上させた。
実験の結果、提案モデルはベースラインよりも高い精度を達成した。特に、アダプターのみを微調整した場合に最も高い精度が得られた。一方で、視線領域の推定精度が低い場合には精度が低下する傾向が見られた。今後の課題として、より精度の高い視線領域推定手法の開発や、質問の理解に必要な情報を効果的に統合するモデル構造の検討が挙げられる。
統計資料
視線領域を含む画像を入力した場合、ベースラインモデルの精度は34.15%であった。
視線領域の推定精度が低い場合、提案モデルの精度は34.78%と、ベースラインよりも低下した。
引述
「視線情報を活用することで、日本語の質問に含まれる指示語や省略表現の曖昧さを解消し、正確な回答を生成することができる。」
「提案モデルはベースラインよりも高い精度を達成した。特に、アダプターのみを微調整した場合に最も高い精度が得られた。」