Core Concepts
提供ヘブライ語の結論抽出と割り当てリソースに関する重要な情報。
Abstract
この論文では、ヘブライ語のための結論抽出と割り当てリソースに焦点を当て、State Comptroller and Ombudsman of Israel のレポートに基づいたデータセットを紹介しています。主な貢献として、MevakerSummおよびMevakerConcデータセットの構築、HeConEおよびHeConEspcモデルの導入、そしてHeCrossモデルのトレーニングが挙げられます。さらに、結論抽出タスクと結論割り当てタスクに焦点を当てたいくつかのモデルがトレーニングされました。
Introduction:
ヘブライ語NLPコミュニティ向けのリソース拡充を目指す。
State Comptroller and Ombudsman of Israel レポートから複数のデータセット構築。
Datasets:
MevakerSumm: 要約用データセット。
MevakerConcTree: 結論割り当て用補助データセット。
Conclusion Extraction:
HeConE, HeConEspcモデルで異なる分類アーキテクチャを使用してトレーニング。
Conclusion Allocation:
HeCrossモデルで初めての単言語クロスエンコーダ類似性モデルをトレーニング。
Stats
1109文書から成るMevakerConcSenデータセットでHeConEとHeConEspcモデルを20エポックでトレーニングしました。
HeCrossモデルは100kサンプル(HeQから50k、MevakerConcTreeから50k)で1エポックでファインチューニングされました。