本研究では、長文文書の効率的な表現学習手法を提案している。具体的には以下の3つの貢献がある:
最新の自己対比的学習手法であるSimCSEを用いてLongformerベースの文書エンコーダを学習する。
さらに、ブレグマン発散に基づく畳み込みニューラルネットワークを追加することで、出力の文書表現の品質を向上させる。
法律分野と医療分野の3つの長文文書分類タスクで実験を行い、提案手法の有効性を示す。特に、自己対比的学習とブレグマン発散の組み合わせが最も良い性能を示した。
提案手法の利点は以下の通り:
今後の課題としては、より大規模なモデルや他のタスクへの適用などが考えられる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究