本論文は、Atanasova et al. (2020)の研究の一部を再現したものである。ReproHumプロジェクトの一環として、事実確認説明の生成に関する人間評価実験を再現した。
原論文では、事実確認の正誤判断と説明生成を多タスク学習で行う手法を提案し、人間評価実験を行っていた。本再現実験では、その人間評価実験のうち「カバレッジ」の基準に焦点を当てて再現を行った。
再現実験の結果、原論文と同様の傾向が見られた。すなわち、人間が書いた金標準の説明が最も高い評価を受けたものの、提案手法のうち事実確認タスクと共に学習した「Explain-MT」モデルが、単独で説明を生成する「Explain-Extr」モデルよりも優れた評価を得た。ただし、評価者間の一致度は原論文よりも若干高かった。
全体として、本再現実験の結果は原論文の主要な知見を支持するものであり、事実確認説明生成の分野における研究の再現性を示唆している。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies