核心概念
科学記事のテキストリビジョンに焦点を当てたCASIMIRデータセットの重要性と評価方法について。
摘要
科学記事の執筆は高度に規定されたジャンルであり、テキストリビジョンの重要性が強調される。CASIMIRデータセットは15,646本の科学記事の複数の改訂版を含み、自動的に編集された文と関連する修正意図が付加されている。新しいデータセットは、将来的な改訂ツールの開発をサポートするために段落レベルの情報も提供しており、従来の評価方法への疑問を投げかけている。
統計資料
CASIMIRデータセットには15,646本の科学記事が含まれており、3.7百万ペアの自動的に整列された編集文が収録されている。
編集文数:5.2百万個
引述
"Writing a scientific article is a challenging task as it is a highly codified and specific genre."
"Our dataset distinguishes itself from existing ones in two significant ways: firstly, its size is an order of magnitude larger; and secondly, it offers both sentence-level alignment and paragraph-level localization information."
"Providing automated assistance at the revision step of the writing process could enable authors to efficiently improve their writing."