แนวคิดหลัก
危機関連のソーシャルメディアテキストにおける意味豊かな文埋め込みの重要性と効果的なマルチリンガルモデルの提案。
บทคัดย่อ
マルチリンガル文埋め込みモデル(CT-XLMR-SEとCT-mBERT-SE)が52言語で危機関連のソーシャルメディアテキストを埋め込むことを提案。
文章エンコーディングタスクや文章一致タスクにおいて有望な結果を示し、多言語対応能力を強調。
様々な平行データセットから128百万以上の文ペアを使用して学習されたモデルは、CrisisTransformersの教師モデルと類似した埋め込み空間を再現。
XLM-RやmBERTに基づく従来のモデルよりも優れた性能を示し、実際の非英語危機関連ソーシャルメディアテキストでのパフォーマンスが期待される。
抽出された統計:
52言語で危機関連のソーシャルメディアテキストを埋め込んだマルチリンガル文エンコーダーが提案されました。
สถิติ
クラスタリングやトピックモデリングなど、多言語文埋め込みモデルは危機情報学分野で重要です。