会話クエリ生成は、対話履歴から検索クエリを生成し、知識ベースの対話システムに関連知識を提供するタスクである。従来のモデルは、正解クエリの尤度を最大化するように学習されるが、データ飢餓の問題や、対話履歴から重要な概念を落とし、関連性のない概念を生成する問題に悩まされている。これらの問題は、正解クエリの多くが対話トピックと間接的にしか関連していない「過剰関連付け」現象に起因すると分析した。
提案手法では、データベースの重み付けと、モデル出力の重み付けの2つの戦略を提案する。データベースの重み付けは、クエリと対話履歴の単語レベルの重複度に基づいて、過剰関連付けの高いインスタンスの影響を減らす。モデル出力の重み付けは、モデルの予測確率や生成された全体シーケンスを考慮することで、人間の注釈とモデル分布の不整合を軽減する。
実験では、2つのベンチマークデータセットで提案手法が大幅な性能向上を示し、特に低リソース設定でも優れた結果を得ることを確認した。さらに、人間評価でも提案手法の有効性が示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問