Core Concepts
画像を活用した中国語マルチモーダルNERデータセット(CMNER)の重要性と効果を示す。
Abstract
この記事は、中国の最大ソーシャルメディアプラットフォームであるWeiboから収集された5,000件のWeibo投稿と18,326枚の画像を含む中国語マルチモーダルNERデータセット(CMNER)に焦点を当てています。このデータセットは、人物、場所、組織、その他の4つの異なるカテゴリに分類されたエンティティを含んでおり、画像を取り入れることでNERのパフォーマンスが向上することが示されています。さらに、英語のMNERデータセット(Twitter2015)とのクロスリンガル実験も行われ、中国語と英語のマルチモーダルNERデータが相互にパフォーマンス向上に寄与することが確認されました。
Stats
CMNERデータセットは5,000件のWeibo投稿と18,326枚の画像から成る。
エンティティ数は合計27,044であり、平均して1つの投稿あたり約3.67枚の画像が含まれている。
ACNモデルではPERエンティティにおいてF1スコアが72.93から73.62に向上し、UMTモデルでは全体的なF1スコアが88.98から89.36に向上している。
Quotes
"RedmiK50[MISC]的终极大作K50极速版终于正式公布了。"
"OPPOReno7Pro[MISC]星 雨心 愿 ,真的好梦幻啊,这款也太适合我了吧。"
"世界女排新闻资讯#体育#17岁的小彩娃 [PER] 面 对 超 级 强 队 科 内 利 亚 诺 [ORG]能交出27扣17中,63%的扣球成 功率,48%的效率的成绩,未来可期。"