Core Concepts
文書中のエンティティの重要度を正確に検出することで、文書の主題理解に役立つ
Abstract
本論文では、文書中のエンティティの重要度検出タスクに対して、事前学習言語モデルを活用したクロスエンコーダーアーキテクチャを提案している。
従来の特徴量エンジニアリングアプローチに比べ、提案手法は一貫して高いF1スコアを達成している。
4つのデータセットを用いた実験を行い、提案手法の有効性を示している。
特に、エンティティの出現位置や出現頻度に着目した分析を行い、提案手法の振る舞いを詳細に検討している。
提案手法は、ヘッドラインやリード文に出現するエンティティの重要度を高精度に検出できることを示している。
また、単一の出現しか持たないエンティティの重要度検出においても、従来手法を大きく上回る性能を示している。
Stats
文書の長さは平均5,079文字である。
文書中には平均4,405,066個のエンティティ出現が含まれている。
全体の14%のエンティティが重要であると判断されている。