核心概念
著者名曖昧性解消のためのマルチタスク学習を用いたエンドツーエンドのブートストラッピング手法を提案する。局所的な論文類似度学習と大域的なクラスタリングを相互に強化し合うことで、高精度な著者名曖昧性解消を実現する。
要約
本論文は、著者名曖昧性解消(SND)問題に取り組むための新しいアプローチを提案している。従来のSND手法は、局所的な論文類似度学習と大域的なクラスタリングを別々に行う二段階のアプローチを採用していた。しかし、これらの二つのタスクは密接に関連しており、相互に強化し合うことで、より高精度な解決が可能になると考えられる。
そこで本論文では、BOND(BOotstrapping From-Scratch Name Disambiguation with Multi-task Promoting)と呼ばれる新しい手法を提案している。BONDは以下の3つの主要コンポーネントから構成される:
- マルチ関係グラフの構築: 論文間の共著者、所属組織、出版会議などの多様な関係を表現するグラフを構築する。
- 局所的な論文類似度学習: グラフ自己符号化器とグラフ注意ネットワーク(GAT)を用いて、論文の表現を学習する。
- 大域的なクラスタ認識学習: DBSCANクラスタリングアルゴリズムを用いて、論文をクラスタに分類する。同時に、このクラスタ情報を局所的な論文類似度学習に活用することで、相互に強化し合う。
実験結果から、BONDは従来手法と比べて大幅な性能向上を達成していることが示された。さらに、アンサンブル学習と後処理手法を組み合わせたBOND+は、WhoIsWhoベンチマークの最高位を獲得している。
統計
2023年10月時点で、DBLPには計算科学分野だけでも300人以上の"Wei Wang"という著者が存在する。
本論文で使用したWhoIsWho-v3データセットには、480個の一意な著者名、12,431人の著者、285,252本の論文が含まれている。
引用
"From-scratch name disambiguation is an essential task for establishing a reliable foundation for academic platforms."
"Previous research has traditionally treated SND as a clustering problem, which can be broken down into two main tasks: (1). Local Metric Learning. (2). Global Clustering."
"Unfortunately, previous methods often approached these two stages as two successive decoupled phases."