本研究では、視線情報を活用して日本語の曖昧な質問に回答するためのデータセット「GazeVQA」を構築した。GazeVQAは、画像中の話者の視線情報を利用して、指示語や省略表現を含む曖昧な日本語質問に対する回答を生成するタスクを想定している。
データ収集の手順は以下の通りである:
GazeVQAの特徴は以下の通りである:
さらに、視線情報を活用してGazeVQAタスクの精度を向上させるモデルを提案した。提案モデルは、ClipCapベースラインにアダプターを追加したものである。アダプターは、画像全体と視線領域の特徴を統合することで、曖昧な質問に対する回答精度を向上させた。
実験の結果、提案モデルはベースラインよりも高い精度を達成した。特に、アダプターのみを微調整した場合に最も高い精度が得られた。一方で、視線領域の推定精度が低い場合には精度が低下する傾向が見られた。今後の課題として、より精度の高い視線領域推定手法の開発や、質問の理解に必要な情報を効果的に統合するモデル構造の検討が挙げられる。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Shun Inadumi... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17545.pdfPerguntas Mais Profundas