Konsep Inti
本論文では、階層的テキスト分類のための新しい対照学習フレームワークHILLを提案する。HILLは、構造エンコーダを用いて、テキストの意味情報と構造情報を統合し、情報損失のない学習を実現する。
Abstrak
本論文では、階層的テキスト分類(HTC)のための新しい対照学習フレームワークHILLを提案している。
まず、構造エンコーダを用いて、ラベル階層の構造情報を抽出する。具体的には、構造エントロピーの最小化アルゴリズムを用いて、ラベル階層の最適なコーディングツリーを構築する。次に、このコーディングツリーを用いて、階層的表現学習を行い、テキストの意味情報と構造情報を統合する。
この情報損失のない学習により、テキストの意味情報を最大限保持しつつ、ラベル階層の構造情報を効果的に活用することができる。理論的には、提案手法が他の対照学習手法よりも上界を持つことを示している。
実験結果では、提案手法が3つの一般的なデータセットで最高性能を達成し、効率的な学習が可能であることを示している。
Statistik
テキストの平均ラベル数は2.0、3.24、7.6
ラベル階層の深さは2、4、8