核心概念
本稿では、オープンソースの大規模言語モデル(LLM)を用いて、政治ニュース記事の事実性をアノテーションする、スケーラブルかつ費用対効果の高いフレームワークを提案する。
要約
本稿は、大規模言語モデル(LLM)を用いて、政治ニュース記事の事実性をアノテーションする、スケーラブルかつ費用対効果の高いフレームワークを提案する研究論文である。
研究目的
- 政治ニュース記事の事実性を自動的に判定する、費用対効果の高いスケーラブルな手法を開発すること。
- オープンソースのLLMを用いて、政治ニュース記事の事実性をアノテーションする際の有効性を検証すること。
手法
- 2023年5月6日から2024年5月6日までの北米の政治情勢に関するニュース記事のデータセットを構築。
- Llama-3-8B-Instruct、Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.3、Gemma-2-9b-Instruct、Phi-3-medium-128k-Instructを含む、複数のオープンソースLLMをアノテーターとして使用。
- ゼロショットと5ショットの設定でLLMを評価。
- アノテーションタスクには、各ニュース記事を「事実に基づいている」または「事実に基づいていない」のいずれかに分類することを含む。
- LLMによるアノテーションは、多数決によって決定され、3人の人間のレビューアーによって検証。
- GPT-4o-miniとLlama-3.1-70Bの2つのLLMを評価者(ジャッジ)として使用し、アノテーションの客観的かつスケーラブルな評価を実施。
主要な結果
- 5ショット設定のLlama-3-8B-Instructは、他のすべてのモデルよりも優れており、人間の注釈と最も一致度の高い結果を示した。
- 5ショットの実験はすべて、ゼロショットの実験よりも優れたパフォーマンスを示した。
- LLMベースの評価では、Llama-3-8B-Instructが最も高い合意率を達成し、GPT-4o-miniで76.4%、Llama-3.1-70Bで79.6%となり、正解率87.2%に最も近い値となった。
- Gemma-2-9b-Instructも優れたパフォーマンスを示し、2つのジャッジで77.2%と77.6%という一貫したレートを達成し、正解率84.0%と比較的近い値となった。
結論
- オープンソースのLLMは、政治的誤報検出のための効果的なアノテーターとして機能する可能性があり、人間の判断と密接に一致するアノテーションを生成できることが実証された。
- 異なるLLMジャッジ間で評価にばらつきがあることは、パフォーマンスを総合的に評価するために複数の評価方法が必要であることを示唆している。
- LLMはアノテーションのための有望かつ費用対効果の高いアプローチを提供する一方で、人間の監督を取り入れることで、結果の信頼性がさらに高まる。
意義
- 本フレームワークは、NLPアプリケーション、特に感情分析や誤報検出のための政治コンテンツの分析におけるラベル付けプロセスを改善するための重要な意味を持つ。
- 今後の研究では、視覚データを取り入れたマルチモーダルなアプローチを探求し、政治的誤報のアノテーションをさらに強化し、誤報に効果的に対抗していく必要がある。
統計
データセットは、2023年5月6日から2024年5月6日までの期間のニュース記事から構成。
6,100件の記事をサンプリング。
5種類のオープンソースLLMをアノテーターとして使用。
12人のボランティアメンバーによるレビューチームが、LLMによるアノテーションを検証。
引用
"Empirical analysis indicates that annotations generated by LLMs closely match human annotations, as evidenced by high reference-based scores (Table 1)."
"LLM-based evaluations for assessing label quality demonstrate strong performance of LLM annotators (Table 2)."