Centrala begrepp
ソーシャルメディアプラットフォームは危機コミュニケーションに不可欠な役割を果たしているが、その非公式な性質により分析が困難である。本研究では、危機関連ソーシャルメディアテキストの効果的な処理を可能にする事前学習言語モデルと文エンコーダーを提案する。
Sammanfattning
本研究では、危機関連ソーシャルメディアテキストの処理に特化した事前学習言語モデルとセンテンスエンコーダーを開発した「CrisisTransformers」を紹介する。
主な内容は以下の通り:
- 15億語以上のツイートから構成される大規模な危機関連コーパスを構築した。
- 3つのCrisisTransformersモデルを開発し、事前学習時の初期化の違いが収束に及ぼす影響を分析した。
- 18の危機関連データセットでCrisisTransformersの分類性能を評価し、既存モデルを上回る結果を得た。
- CrisisTransformersベースのセンテンスエンコーダーを開発し、現状最高レベルの性能を達成した。これは、ドメイン特化モデルの有効性を示している。
- CrisisTransformersモデルとセンテンスエンコーダーを公開し、危機情報分析の基盤として活用できるようにした。
Statistik
15億語以上のツイートから構成される危機関連コーパスを構築した。
コーパスには36.7百万の固有トークンが含まれている。