本論文では、クリックベイト検出のための新しい手法として、プロンプトチューニングとテキストサマリゼーションを組み合わせたPCTSを提案している。
クリックベイトは、ユーザーの注意を引くために作られた誇大広告的なヘッドラインであり、実際のコンテンツとは大きな差がある。従来の手法では、ヘッドラインとコンテンツの意味的な類似性を直接計算していたが、長さや特徴の違いが大きいため、うまく関係性を捉えられないことが問題だった。
そこで本手法では、まず2段階のテキストサマリゼーションモデルを用いて高品質なニュースサマリーを生成する。そして、ヘッドラインと生成されたサマリーの両方をプロンプトチューニングのための入力とする。これにより、ヘッドラインとコンテンツの差異を解消し、検出精度の向上につなげている。
さらに、5つの異なる戦略を組み合わせてバーバライザーを構築することで、ノイズの影響を軽減し、検出性能をさらに高めている。
実験の結果、提案手法は既存手法と比べて優れた性能を示すことが確認された。特に、少数のラベル付きデータでも高い精度を達成できることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haoxiang Den... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11206.pdfDeeper Inquiries