本論文では、単一文書からのキーフレーズ抽出のための新しい教師あり機械学習アプローチを提案している。
まず、文書からキーフレーズ候補を抽出する。次に、各候補フレーズについて統計的特徴量と位置的特徴量を計算する。最後に、これらの特徴量を用いて部分ランキングモデルまたは分類モデルを学習し、上位k個のキーフレーズを選択する。
統計的特徴量には、フレーズ出現頻度、文書頻度(最大値正規化)、接尾辞フレーズ頻度、接尾辞フレーズ文書頻度、接尾辞フレーズ平均出現頻度、単語組合せ尤度などがある。位置的特徴量には、初出位置、N-gram長が含まれる。
提案手法は外部知識ベースや事前学習モデルに依存せず、単純な特徴量のみを使用する。ベンチマークデータセットでの評価では、多くの最新の教師なし手法や教師あり深層学習手法を上回る精度を達成している。特に、教師あり深層学習手法に匹敵する精度を示している。
提案手法は、ドメイン非依存で汎用性が高く、アノテーション済みデータセットが小規模でも高精度を発揮できる利点がある。今後は、より単純な追加特徴量の検討や、グラフベースの特徴量の活用などを検討していく予定である。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sriraghavend... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07954.pdfYêu cầu sâu hơn