核心概念
情報探索対話(ISD)において、従来のリアクティブな応答ではなく、ユーザーの興味を喚起し、対話を継続させるプロアクティブな応答を生成するための新たな定義と手法が提案されている。
本論文は、情報探索対話(ISD)におけるプロアクティビティの新たな定義を提案し、ユーザーの興味を引きつけ、対話を継続させるプロアクティブな応答を生成するための手法を検討している。従来のISDエージェントは、ユーザーの質問に直接答えることには長けていたが、ユーザーを積極的に引き込み、対話を継続させる能力が不足していた。そこで本研究では、初期クエリに関連する新しい情報を導入することで、生成される各応答の「プロアクティブ性」を高めることに焦点を当てた、プロアクティビティの新しい定義を提示する。
プロアクティブな応答の定義:
従来のプロアクティビティ定義は、明確化質問の生成やユーザー選好の抽出に焦点を当てており、対話の維持やユーザーエンゲージメントについては重視されていなかった。
本研究では、初期クエリに関連する新しい情報を提供することで、ユーザーとのインタラクションを維持することを目的とした、ISDプロアクティビティの新しい定義を導入する。
プロアクティブな応答は、「回答」と「プロアクティブ要素」の2つの要素で構成される。
「回答」はユーザーのクエリに直接対応する。
「プロアクティブ要素」は、関連する新しい情報を提供することでユーザーを積極的に引き込む。
プロアクティブ要素は、さらに「フォローアップ質問(FQ)」と「追加情報(AI)」の2つのカテゴリに分類される。
AIは、ユーザーのクエリで明示的に要求されていない、または回答に記載されていないが、ユーザーの興味を引く可能性のある知識である。
FQは、ユーザーが初期クエリに関連する特定の追加情報に関心を持っているかどうかを尋ねる質問である。
データセット:
プロアクティブな対話コーパスを構築するために、Natural Questions Question Answer (NQQA) データセットを活用。
NQQAデータセット内の短い回答を、より自然な会話形式の応答になるように、クラウドワーカーを使って修正。
プロアクティブ要素(FQまたはAI)を作成するために、クラウドワーカーは長い回答を参照として提供され、関連性、情報量、自然さなどの基準を満たすように指示された。
最終的に、1,000件のクエリと、FQとAIそれぞれに対応する2,000件のプロアクティブな応答を含むデータセットを作成。
評価指標:
提案されたプロアクティブな応答を評価するために、以下の4つの自動評価指標を導入。
プロンプトベースの指標: 大規模言語モデル(LLM)に、定義に基づいて応答のプロアクティブ性を評価するように促す。
分類ベースの指標: 2つの言語モデルを使用して、定義に従って、各プロアクティブ要素タイプに対して応答が有効かどうかを評価する。
意味的類似性ベースの指標: プロアクティブな応答の関連性、FQの具体性、AIの情報量を評価するために、BERT Scoreに基づく指標を設計。
ユーザーシミュレーションベースの指標: AIの関連性と会話の自然さ、およびFQの具体性と視点を評価するために、LLMを使用してシミュレートされたユーザーの応答を生成し、その感情を測定する。
プロアクティブな応答生成:
プロアクティブな応答を生成するために、以下の3つのIn-Context LearningプロンプトとInstruction Tuningを活用。
直接プロンプト: タスクの説明とクエリとプロアクティブな応答のペアの例を使用して、LLMに直接プロンプトする。
3段階CoTプロンプト: プロアクティブな応答生成タスクを3つのサブタスク(クエリ応答、関連情報生成、プロアクティブ要素生成)に分解し、各サブタスクに独立したプロンプトを使用する。
3-in-1 CoTプロンプト: 3つのサブタスクすべてを1つの推論に統合した単一の3-in-1プロンプトを使用する。
Instruction Tuningでは、QLoRAを用いてLLMをファインチューニングし、FQまたはAIを含むプロアクティブな応答を生成するように訓練。
実験:
評価指標の有効性を評価するために、500件のポジティブサンプルと500件のネガティブサンプルを用いて、人間による評価との相関を分析。
意味的類似性ベースの指標とユーザーシミュレーションベースの指標は、ベースラインよりも高い相関を示し、提案手法の有効性を示唆。
In-Context LearningとInstruction Tuningを用いたプロアクティブな応答生成の実験を実施。
3段階CoTプロンプトは、FQの生成において、他のプロンプトよりも優れた性能を示した。
AIの生成においては、3-in-1 CoTプロンプトが、他のプロンプトよりも優れた性能を示した。
Instruction Tuningは、3段階CoTプロンプトおよび3-in-1 CoTプロンプトの3ショットバリアントと同等の品質の応答を生成。
複数ターンの対話:
50つのテストケースを用いて、シミュレートされたユーザーとエージェント間の複数ターンの対話をシミュレート。
エージェントがAIまたはFQを含む応答を生成した場合、ユーザーは対話を継続する傾向が有意に高かった。
平均して、ユーザーはFQエージェントとは3.9ターン、AIエージェントとは3.2ターン対話を継続した。
しかし、どちらのプロアクティブ要素も、対話の中で以前のプロアクティブ要素を繰り返す傾向が見られた。
この問題は、LLMの品質を向上させることで軽減できる可能性があるという仮説を立て、GPT-4を用いて実験を行った結果、繰り返しが減少することが確認された。