核心概念
既存の論文のすでに含まれている引用に焦点を当てず、改善の余地がある見逃された引用を推奨する新しいタスク「RMC」を定義し、それに関連するデータセット「CitationR」を構築しています。
摘要
科学出版物の急激な増加により、包括的かつ適切な引用は困難な課題となっています。既存の引用推奨システムは、与えられたテキストコンテキストや下書き論文に対して科学論文のリストを推奨することを目指しています。しかし、既存の作業はすでに含まれている全文論文の引用に焦点を当てておらず、改善の余地があります。ピアレビューのシナリオでは、投稿物が重要な引用を見落としていることがあります。これは研究の信頼性と妥当性に否定的な影響を与える可能性があります。私たちはこの新しいタスク「RMC」を定義し、「CitationR」という対応する専門家ラベル付きデータセットを構築します。さまざまな最先端手法をCitationRで評価し、新しいフレームワーク「RMCNet」を提案します。
統計資料
CitationRデータセット内で約35%の投稿物が重要な引用が欠けていることが特定されました。
約76,143件の収集されたレビューから約12%がレビュアーから推奨された引用を含んでいます。
平均して、1つの投稿物あたり約2.5件の推奨された引用があります。
引述
"ピアレビュープロセスで一般的な現象から着想を得て、「RMC」タスクおよびその難易度向上に貢献する高品質データセット「CitationR」を開発しました。"
"我々は提案した方法がすべてのベースライン手法よりもすべてのメトリックで優れており、将来的な研究に堅固な基準として役立つ可能性があることを示しました。"