核心概念
長文文書の効率的な表現学習のために、自己対比的な学習手法にブレグマン発散ネットワークを組み合わせることで、高品質な文書表現を得ることができる。
要約
本研究では、長文文書の効率的な表現学習手法を提案している。具体的には以下の3つの貢献がある:
最新の自己対比的学習手法であるSimCSEを用いてLongformerベースの文書エンコーダを学習する。
さらに、ブレグマン発散に基づく畳み込みニューラルネットワークを追加することで、出力の文書表現の品質を向上させる。
法律分野と医療分野の3つの長文文書分類タスクで実験を行い、提案手法の有効性を示す。特に、自己対比的学習とブレグマン発散の組み合わせが最も良い性能を示した。
提案手法の利点は以下の通り:
効率性: 固定された文書表現を用いる設定では、エンドツーエンドの微調整に比べて2-8倍高速に学習できる。
表現の多様性: 文書表現をサブネットワークにマッピングすることで、表現の崩壊を回避できる。
今後の課題としては、より大規模なモデルや他のタスクへの適用などが考えられる。
統計
長文文書の平均長は、ECtHRが1,613単語、MIMICが1,621単語、SCOTUSが5,853単語である。
提案手法のLongformerDA+SimCSE+Bregmanモデルは、3つのデータセットの平均でマクロF1スコアが67.1%、マイクロF1スコアが68.1%を達成した。