中国のソーシャルメディアに基づく中国語マルチモーダルNERデータセット(CMNER)
Core Concepts
画像を活用した中国語マルチモーダルNERデータセット(CMNER)の重要性と効果を示す。
Abstract
この記事は、中国の最大ソーシャルメディアプラットフォームであるWeiboから収集された5,000件のWeibo投稿と18,326枚の画像を含む中国語マルチモーダルNERデータセット(CMNER)に焦点を当てています。このデータセットは、人物、場所、組織、その他の4つの異なるカテゴリに分類されたエンティティを含んでおり、画像を取り入れることでNERのパフォーマンスが向上することが示されています。さらに、英語のMNERデータセット(Twitter2015)とのクロスリンガル実験も行われ、中国語と英語のマルチモーダルNERデータが相互にパフォーマンス向上に寄与することが確認されました。
CMNER
Stats
CMNERデータセットは5,000件のWeibo投稿と18,326枚の画像から成る。
エンティティ数は合計27,044であり、平均して1つの投稿あたり約3.67枚の画像が含まれている。
ACNモデルではPERエンティティにおいてF1スコアが72.93から73.62に向上し、UMTモデルでは全体的なF1スコアが88.98から89.36に向上している。
Quotes
"RedmiK50[MISC]的终极大作K50极速版终于正式公布了。"
"OPPOReno7Pro[MISC]星 雨心 愿 ,真的好梦幻啊,这款也太适合我了吧。"
"世界女排新闻资讯#体育#17岁的小彩娃 [PER] 面 对 超 级 强 队 科 内 利 亚 诺 [ORG]能交出27扣17中,63%的扣球成 功率,48%的效率的成绩,未来可期。"
Deeper Inquiries
どうしてCMNERデータセットは中国語マルチモーダルNERタスクにおいて重要だと考えられますか?
CMNERデータセットは、中国語のマルチモーダルな環境でのNamed Entity Recognition(固有表現抽出)を可能にする初めての高品質なデータセットです。このデータセットは、テキストと画像が組み合わさったWeibo投稿から収集され、4つの異なるエンティティカテゴリー(人物、場所、組織、その他)を含んでいます。従来のテキスト中心のNER手法では難しかった社会メディアプラットフォームにおける情報処理を改善し、画像情報を取り入れることでNERパフォーマンスが向上することが示されました。また、このような一文多画像特性は実世界のソーシャルメディアシナリオを忠実に再現し、「RedmiK50」など特定エンティティ名詞やそれらの分類へ大きく貢献します。
Generate with Undetectable AI
Translate to Another Language