核心概念
オンラインの対話型評価とオフラインの観察型評価では、チャットボットの性能評価に大きな差がある。オンラインの対話型評価のほうが、チャットボットの対話経験の微妙な点をより正確に捉えることができる。
要約
本研究では、オンラインの対話型評価とオフラインの観察型評価を比較している。
オンラインの対話型評価では、人間がチャットボットと直接対話し、その経験に基づいて評価を行う。
オフラインの観察型評価では、事前に収集された対話ログを第三者が読んで評価する。
研究結果は以下の通り:
オフラインの観察型評価では、チャットボットの性能差を十分に捉えられない。オンラインの対話型評価のほうが、チャットボットの微妙な特性をより正確に反映する。
オフラインの観察型評価では、評価者間の一致度が低い。対話経験の主観性が強く反映されるためと考えられる。
一方、自動評価ツールを使ったオフラインの評価は、オンラインの対話型評価とより良く相関する。
本研究の結果は、チャットボットの評価にはユーザーとの直接的な対話経験が不可欠であることを示唆している。オンラインの対話型評価を取り入れることで、ユーザー満足度の向上につながると考えられる。
統計
オンラインの対話型評価では、チャットボットの種類と感情極性の主効果、および交互作用効果が有意であった。
一方、オフラインの観察型評価では、チャットボットの種類の主効果のみが有意であった。
引用
"オフラインの観察型評価では、対話経験の微妙な点を十分に捉えられない。"
"ユーザーとの直接的な対話経験は、チャットボットの評価に不可欠である。"