本研究は、エンドツーエンドのマルチタスク対話システムの性能向上を目的としている。対話システムの各ステップを担当する個別のモジュールの中でも、特に重要なのがポリシーモジュールである。
内発的動機付け強化学習アルゴリズムを活用することで、状態訪問頻度に着目し、対話の意味的類似性を通じて探索を促進することで、ポリシーの評価と学習を改善することを目指している。
MultiWOZデータセットを用いた実験の結果、外部報酬に依存するシステムよりも内発的動機付けに基づくシステムの方が優れた性能を示すことが分かった。特に、意味的類似性に基づくランダムネットワーク蒸留を用いたシステムは、平均成功率73%と、ベースラインの60%を大きく上回る結果を得た。また、予約率や完了率などの指標でも10%の改善が見られた。さらに、これらの内発的動機付けモデルは、ドメインの増加に対するポリシーの頑健性も向上させることが示された。これは、より広範なドメインをカバーする設定への適用が期待できることを意味している。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询