Alapfogalmak
LLMベースの対話システムにおいて、出力の信頼性を定量化し、活用することは重要である。本研究では、対話状態追跡タスクにおいて、様々な手法による信頼性推定手法を検討し、その有効性を示した。
Kivonat
本研究は、LLMベースの対話システムにおける対話状態追跡タスクに焦点を当てている。対話状態追跡は、ユーザーの発話と対話履歴を入力として、ドメイン固有のスキーマに基づいて、スロット-値のペアとしての対話信念状態を出力する重要なタスクである。
研究では、以下の4つの信頼性推定手法を検討した:
ソフトマックス出力に基づく手法
トークンスコアに基づく手法
言語化された信頼性に基づく手法
これらの手法を組み合わせた手法
これらの手法は、オープンウェイトモデルとクローズドウェイトモデルの両方に適用可能である。さらに、オープンウェイトモデルについては、タスク特化のファインチューニングを行い、その効果も検証した。
また、モデル自身による自己検証(self-probing)の手法を提案し、信頼性スコアの較正に効果があることを示した。
実験の結果、ファインチューニングしたオープンウェイトモデルに、提案した信頼性推定手法を組み合わせることで、最も高い信頼性スコアの較正と対話状態追跡の精度を達成できることが分かった。
Statisztikák
対話状態追跡の精度(Joint Goal Accuracy)は44.6%を達成した。
信頼性スコアの較正度(ROC-AUC)は0.725を達成した。
信頼性スコアの較正誤差(ECE)は0.018であった。