核心概念
参照データが不足しているテキスト簡素化の課題に対し、参照不要の機械学習ベースの評価メトリックREFeREEを提案する。REFeREEは3段階のカリキュラムを持ち、大規模な非参照データを活用し、人手評価とも整合的な性能を示す。
要約
本論文は、テキスト簡素化の自動評価に関する課題に取り組んでいる。テキスト簡素化の質を評価する際、一般的に参照データとの比較が行われるが、参照データの収集が困難であるという問題がある。
提案手法のREFeREEは、参照データを必要とせずに機械学習ベースの評価メトリックを構築する。REFeREEは以下の3段階のカリキュラムで構成される:
前訓練段階1: 参照不要の教師信号(意味保持、流暢性、簡潔性)を使って大規模な非参照データでモデルを事前学習する。この段階は任意の規模で拡張可能。
前訓練段階2: 参照不要の教師信号に加え、参照データに基づく教師信号(BLEU、SARI、BERTScore)を使って事前学習を行う。
fine-tuning段階: 人手評価データを使ってモデルを微調整する。
実験の結果、REFeREEは既存の参照ベースの評価メトリックを上回る性能を示し、特に全体的な評価スコアの予測において優れていることが分かった。一方で、個別の評価軸(適切性、流暢性、簡潔性)の予測では、より小規模なデータセットでは他手法に劣る場合もあった。これは、REFeREEの前訓練データに含まれる簡素化システムの偏りが影響していると考えられる。
今後の課題としては、他言語やドメイン、文書レベルの簡素化などへの適用可能性の検討、前訓練データの規模拡大、参照不要評価メトリックの信頼性に関する議論などが挙げられる。
統計
意味保持を測るために、ソース文とシンプル化文のSBERT埋め込みの距離、self-BLEU、self-BERTScoreを使用した。
流暢性を測るために、ソース文とシンプル化文のGPT-2のパープレキシティを使用した。
簡潔性を測るために、ソース文とシンプル化文のFKGL得点、CommonLitの読解難易度スコアを使用した。