本研究は、LLMベースの対話システムにおける対話状態追跡タスクに焦点を当てている。対話状態追跡は、ユーザーの発話と対話履歴を入力として、ドメイン固有のスキーマに基づいて、スロット-値のペアとしての対話信念状態を出力する重要なタスクである。
研究では、以下の4つの信頼性推定手法を検討した:
これらの手法は、オープンウェイトモデルとクローズドウェイトモデルの両方に適用可能である。さらに、オープンウェイトモデルについては、タスク特化のファインチューニングを行い、その効果も検証した。
また、モデル自身による自己検証(self-probing)の手法を提案し、信頼性スコアの較正に効果があることを示した。
実験の結果、ファインチューニングしたオープンウェイトモデルに、提案した信頼性推定手法を組み合わせることで、最も高い信頼性スコアの較正と対話状態追跡の精度を達成できることが分かった。
翻譯成其他語言
從原文內容
arxiv.org
深入探究