本研究では、ファクトイド質問に対する自動ヒント生成のフレームワークを提案し、それを用いて「TriviaHG」と呼ばれる新しい大規模データセットを構築した。TriviaHGには、TriviaQAデータセットから抽出した16,645の質問に対応する160,230個のヒントが含まれている。
また、ヒントの収束性(Convergence)と馴染み度(Familiarity)の2つの品質属性を自動的に評価する手法を提案した。10人の評価者による手動評価と6人の被験者によるヒントを使った質問回答実験を行った結果、ヒントの有効性が示された。ヒントの品質は答案の難易度に依存し、自動評価手法は人間の評価と強い相関を示すことが明らかになった。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問