toplogo
Sign In

中国のソーシャルメディアに基づく中国語マルチモーダルNERデータセット(CMNER)


Core Concepts
画像を活用した中国語マルチモーダルNERデータセット(CMNER)の重要性と効果を示す。
Abstract
この記事は、中国の最大ソーシャルメディアプラットフォームであるWeiboから収集された5,000件のWeibo投稿と18,326枚の画像を含む中国語マルチモーダルNERデータセット(CMNER)に焦点を当てています。このデータセットは、人物、場所、組織、その他の4つの異なるカテゴリに分類されたエンティティを含んでおり、画像を取り入れることでNERのパフォーマンスが向上することが示されています。さらに、英語のMNERデータセット(Twitter2015)とのクロスリンガル実験も行われ、中国語と英語のマルチモーダルNERデータが相互にパフォーマンス向上に寄与することが確認されました。
Stats
CMNERデータセットは5,000件のWeibo投稿と18,326枚の画像から成る。 エンティティ数は合計27,044であり、平均して1つの投稿あたり約3.67枚の画像が含まれている。 ACNモデルではPERエンティティにおいてF1スコアが72.93から73.62に向上し、UMTモデルでは全体的なF1スコアが88.98から89.36に向上している。
Quotes
"RedmiK50[MISC]的终极大作K50极速版终于正式公布了。" "OPPOReno7Pro[MISC]星 雨心 愿 ,真的好梦幻啊,这款也太适合我了吧。" "世界女排新闻资讯#体育#17岁的小彩娃 [PER] 面 对 超 级 强 队 科 内 利 亚 诺 [ORG]能交出27扣17中,63%的扣球成 功率,48%的效率的成绩,未来可期。"

Key Insights Distilled From

by Yuanze Ji,Bo... at arxiv.org 03-04-2024

https://arxiv.org/pdf/2402.13693.pdf
CMNER

Deeper Inquiries

どうしてCMNERデータセットは中国語マルチモーダルNERタスクにおいて重要だと考えられますか?

CMNERデータセットは、中国語のマルチモーダルな環境でのNamed Entity Recognition(固有表現抽出)を可能にする初めての高品質なデータセットです。このデータセットは、テキストと画像が組み合わさったWeibo投稿から収集され、4つの異なるエンティティカテゴリー(人物、場所、組織、その他)を含んでいます。従来のテキスト中心のNER手法では難しかった社会メディアプラットフォームにおける情報処理を改善し、画像情報を取り入れることでNERパフォーマンスが向上することが示されました。また、このような一文多画像特性は実世界のソーシャルメディアシナリオを忠実に再現し、「RedmiK50」など特定エンティティ名詞やそれらの分類へ大きく貢献します。
0