本研究では、テルグ語ニュースヘッドラインの関連性分類タスクのために、26,178の記事-ヘッドラインペアからなる大規模で多様なデータセット「TeClass」を提供する。このデータセットは、3つの主要カテゴリ(高関連、中関連、低関連)で人手アノテーションされている。
実験の結果、BERT系の事前学習モデルが従来の機械学習モデルよりも優れた性能を示した。特に、mDeBERTaモデルが最高のF1スコア(加重0.63、マクロ0.64)を達成した。
さらに、関連性の高いヘッドラインのみを使ってヘッドライン生成モデルを学習させると、ROUGE-Lスコアが5ポイント以上向上することが示された。
本データセットと注釈ガイドラインは、ニュースヘッドラインの分類、フェイクニュース検出、誤情報検出などの関連タスクの研究に役立つと期待される。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Gopichand Ka... às arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11349.pdfPerguntas Mais Profundas