本論文では、音声対話アバターシステムにおける応答時間の問題について検討している。人間同士の対話では、発話の最後の部分が聞き手に伝わる前に応答が始まることが一般的であるが、現在のシステムではこのような人間レベルの遅延を実現することが困難である。
著者らは、Google NaturalQuestions (NQ) データセットを用いて実験を行い、GPT-4などの最新の言語モデルが発話の最後の部分が欠落した質問の文脈を60%以上の確率で適切に補完できることを示した。これにより、質問の完成を待たずに応答を生成し、人間レベルの対話遅延を実現する可能性が示された。
具体的には、質問の最後の1-3単語を削除した場合の応答の質を評価し、質問が意味的に完結しているかどうかを判断するための分類器を構築することで、適切なタイミングで応答を生成することができる。また、質問が完結していない場合は、フィラーフレーズを使って応答を開始し、質問の完結を待って本答を生成するといった対話制御が可能になる。
このように、言語モデルの文脈補完能力を活用し、人間の対話行動をモデル化することで、音声対話システムの応答時間を人間レベルに近づけることができる。今後は、音声入出力を含む実際の対話システムの構築に向けて、さらなる検討が必要である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問