本論文では、ウェアラブルARにおける文脈認識型ボイスアシスタント「GazePointAR」を紹介している。GazePointARは、ユーザーの視線、指さしジェスチャー、会話履歴を活用して発話の代名詞を解消し、より自然な対話を実現する。
まず、代名詞の使用と解消に関する言語学的分析に基づき、GazePointARの設計と実装を行った。ユーザーの視野を撮影し、コンピュータービジョンを用いて物体や文字を認識し、代名詞を適切な表現に置き換えることで、ユーザーの発話を文脈に合わせて解釈する。
次に、12名の参加者を対象とした3部構成の実験を行った。Part 1では、GazePointARと2つの商用システムを比較し、Part 2ではGazePointARの文脈依存クエリ処理能力を評価した。Part 3では、参加者自身が考案したクエリを試してもらい、GazePointARの性能と限界を確認した。
参加者は、GazePointARの自然さ、人間らしさ、簡便さを高く評価した。特に、発話に代名詞を使えることを好んでいた。一方で、視線の継続追跡、複数代名詞への対応、AIの説明可能性などの課題も指摘された。
最後に、より自然な文脈認識型ボイスアシスタントの設計に向けた考察を行っている。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jaewook Lee,... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08213.pdfConsultas más profundas