Conceitos Básicos
ニュース文書に関する質問応答ペアのデータセットを提供し、将来のクエリベースのマルチドキュメント要約研究のためのリソースとして利用可能です。
Resumo
NewsQsは、T5-Largeモデルを使用して自動生成された質問を含むデータセットであり、人間評価によって高品質な質問が生成されています。このデータセットは、複数のニュース文書に関する情報過多への対処やクエリベースのマルチドキュメント要約研究に貢献します。著者らは既存のMulti-Newsデータセットを拡張し、FAQスタイルのニュース記事から質問を生成する方法を提案しています。制御コードを追加したファインチューニングにより、トピカルな質問が生成されることが示されています。さらに、人間評価タスクでは制御コードを使用したファインチューニングが質問品質向上に効果的であることが示されました。
Estatísticas
NewsQsデータセットは21,000件の高品質な質問応答ペアを含んでいる。
ファインチューニング後、ROUGE-L F1スコアは0.2増加し、BERTScoreは0.42増加した。
平均的な質問長は11.0であり、回答長は287〜288語である。