Core Concepts
対照学習を用いて生成された科学論文の文レベル埋め込みを活用し、分類とクラスタリングのタスクで高い性能を達成した。
Abstract
本研究では、科学論文の文レベルの埋め込みを生成するために、対照学習を用いてトランスフォーマー言語モデルを微調整した。
- 背景、目的、方法、結果、結論のラベルを付けた3つのデータセットを使用して微調整を行った。そのうち1つは医学分野の完全論文から抽出したPMC-Sents-FULLデータセットを新たに作成した。
- 生成された埋め込みを用いて、クラスタリングとクラシフィケーションのタスクを評価した。
- クラスタリングでは、ベースラインモデルと比較して、平均で5倍以上高い性能を達成した。
- クラシフィケーションでは、最良のケースで平均F1-microが30.73%改善された。
- 対照学習を用いた文埋め込みの生成と、それらを下流タスクに活用することが、科学論文の文分類に有効な手法であることが示された。
Stats
科学論文の文レベルの埋め込みを生成する際、対照学習を用いることで、ベースラインモデルと比較してクラスタリングの性能が平均で5倍以上向上した。
クラシフィケーションでは、最良のケースで平均F1-microが30.73%改善された。
Quotes
"対照学習を用いて生成された文埋め込みを活用することで、クラスタリングとクラシフィケーションのタスクで高い性能を達成できた。"
"科学論文の文レベルの埋め込みを生成する際、対照学習は有効な手法であることが示された。"