Core Concepts
ニューラルトピックモデル(NTM)の一般化能力を向上させるため、文書の類似性に基づいて文書のトピック表現を近づけるようにモデルを最適化する。
Abstract
本研究では、ニューラルトピックモデル(NTM)の一般化能力を向上させることを目的としている。
まず、NTMを訓練したソースコーパスとは異なるターゲットコーパスでも良好なトピック表現を生成できるよう、文書の類似性に基づいて文書のトピック表現を近づけるようにモデルを最適化する。具体的には、各文書に対して類似文書を生成し、その文書のトピック表現の距離を最小化するように学習する。トピック表現の距離は、階層的最適輸送(HOT)距離を用いて計算する。HOT距離は、トピック間の距離と単語間の距離を考慮して文書間の距離を計算する。
提案手法は、ほとんどのNTMに適用可能なプラグインモジュールとして実装できる。広範な実験の結果、提案手法は様々なNTMのコーパス間一般化能力を大幅に向上させることが示された。
Stats
文書長の平均は20Newsが87、R8が56、Websが14、TMNが18、DBpediaが23単語である。
20Newsコーパスは20クラス、R8は8クラス、Websは8クラス、TMNは7クラス、DBpediaは14クラスを持つ。