Core Concepts
リンク予測をプロキシとして使うことで、新しい文書に関連する既存の文献を自動的に抽出できる。提案モデルは、トランスフォーマーベースのグラフ埋め込みを使って各文書の意味を表現し、推薦とランキングのタスクで他の内容ベースの手法を上回るパフォーマンスを示す。
Abstract
本研究では、クレジット格付け機関が管理する2,247の基準文書のコーパスを対象に、リンク予測をプロキシとして使ったクリテリア文書の引用推薦と順位付けのアプローチを提案している。
まず、文書間の引用関係を表すグラフを構築し、トランスフォーマーベースのグラフ埋め込みモデルを用いて各文書の意味表現を生成する。この意味表現を使って、新しい文書に対して関連する既存文献を推薦し、順位付けを行う。
モデルの評価では、TF-IDFベースの手法に比べて、提案手法のMAP@20が24.1%、MAR@20が65.3%と大幅に向上していることを示している。また、モデルの内部表現を可視化することで、文書間の主題領域の相互関係を分析している。
提案手法は、クリテリア文書の引用関係を適切に維持・管理する上で有効であり、ビジネス関係やサプライチェーンネットワークなどの他のドメインにも応用可能であると考えられる。
Stats
本コーパスには2,247の基準文書が含まれ、13,959件の引用関係が確認された。
文書あたりの平均引用数は6.2件である。
元の特徴量セットは10,428個の正規化されたTF-IDF特徴量から成っていたが、最終的に300個に削減した。