Grunnleggende konsepter
本稿では、国際関係の予測に従来のデータセットが抱える限界を克服するため、大規模言語モデルを用いて、ニュース記事から将来の国際イベントを予測するための、より包括的で信頼性の高いデータセット「WORLDREP」を提案する。
Sammendrag
WORLDREP: テキストベースのイベントモデリングのための信頼性の高いデータセット
本稿は、テキストベースの国際イベント予測のための新しいデータセット「WORLDREP (WORLD Relationship and Event Prediction)」を紹介する研究論文である。
本研究は、既存の国際イベント予測データセットの限界、特に、多国間関係の捕捉と関係ラベルの精度における問題に対処することを目的とする。
データ収集: 多様なニュース記事を収集し、各記事を発生日時と共に単一のイベントとして扱う。
多主体抽出: 大規模言語モデル(LLM)を用いて、ニュース記事から重要な国を複数抽出する。自己修正メカニズムを組み込み、抽出の精度を高めている。
関係スコアラベリング: 抽出した国々のペアの関係性を、LLMを用いて0.0(完全な協力)から1.0(完全な対立)までのスコアで評価する。関係が不明瞭な場合は「不明」とする。
ドメインエキスパートによる検証: 政治学の専門家によるラベル付けを行い、データセットの品質を検証する。
文書分類実験: WORLDREPとGDELTのラベルを用いてモデルを学習し、ドメインエキスパートのラベルを用いたテストデータセットで性能を比較評価する。
将来のイベント予測: 自動化されたラベル付けシステムを用いて、将来の関係を予測するベンチマークを提供する。