Core Concepts
提案するグラフ構造に基づく新しい文書埋め込み手法は、文章の構文、意味、隠れた情報を効果的に捉え、優れた文書分類性能を実現する。
Abstract
本研究では、文章の構造的特徴を活用した新しい文書埋め込み手法「Guided Transition Probability Matrix (GTPM)」を提案している。GTPM は、文章中の単語間の関係性をグラフ構造として捉え、ランダムウォークによる遷移確率行列を特徴ベクトルとして利用する。これにより、文章の構文、意味、隠れた情報を効果的に抽出することができる。
提案手法の有効性を検証するため、複数のベンチマークデータセットを用いて文書分類タスクを実施した。その結果、GTPM は既存の文書埋め込み手法と比較して優れた分類性能を示すことが確認された。特に、少ない学習データでも高い汎化性能を発揮することが明らかになった。
本研究の主な貢献は以下の通りである:
単語間の関係性をグラフ構造として捉え、ランダムウォークによる遷移確率行列を特徴ベクトルとして利用する新しい文書埋め込み手法の提案
提案手法が文章の構文、意味、隠れた情報を効果的に抽出できることを実験的に示した
少ない学習データでも高い汎化性能を発揮することを明らかにした
Stats
文書長の平均は以下の通りです:
SST-2: 19.3
MR: 21.0
CoLA: 7.7
Ohsumed: 79.49
Reuters: 60.28
20NG: 221.26