Khái niệm cốt lõi
対話コンテキストの量と種類が、クラウドソーシングによる対話システムの評価ラベルの品質と一貫性に大きな影響を与える。
Tóm tắt
本研究は、タスク指向型対話システム(TDS)の評価に使用されるクラウドソーシングラベルに対する対話コンテキストの影響を調査しています。
主な知見は以下の通りです:
対話コンテキストの量が増えるにつれ、アノテーターの一致度が高くなります。relevance評価では、完全な対話履歴(C7)を提示した場合に最も高い一致度が得られました。一方、usefulness評価では、部分的な対話履歴(C3)を提示した場合に最も高い一致度が得られました。
コンテキストが不足すると、アノテーターは肯定的な評価をする傾向があります。これは、コンテキストが不足すると、否定的な判断を下すための根拠が不足するためと考えられます。
対話要約や利用者の情報ニーズを自動生成して提供すると、コンテキストが不足する条件(C0)でも、アノテーターの一致度を高めることができます。特に、ヒューリスティックに生成した利用者の情報ニーズを提供する方法が最も効果的でした。
これらの知見は、対話システムの評価においてクラウドソーシングラベルを活用する際の課題と解決策を示しています。対話コンテキストの量と種類を適切に設計することで、効率的かつ一貫性のある評価が可能になります。
Thống kê
対話コンテキストが不足すると、アノテーターは肯定的な評価をする傾向がある。
完全な対話履歴(C7)を提示した場合、relevance評価の一致度が最も高い。
部分的な対話履歴(C3)を提示した場合、usefulness評価の一致度が最も高い。
自動生成した利用者の情報ニーズを提供すると、コンテキストが不足する条件(C0)でも、アノテーターの一致度を高められる。
Trích dẫn
"コンテキストが不足すると、アノテーターは肯定的な評価をする傾向がある。これは、コンテキストが不足すると、否定的な判断を下すための根拠が不足するためと考えられる。"
"自動生成した利用者の情報ニーズを提供すると、コンテキストが不足する条件(C0)でも、アノテーターの一致度を高められる。特に、ヒューリスティックに生成した利用者の情報ニーズを提供する方法が最も効果的だった。"