Core Concepts
ノイズの多い多言語ソーシャルメディアデータからユーザーの地理的位置を正確に特定する新しい手法を提案する。
Abstract
本論文では、ノイズの多い多言語ユーザー入力に対するジオエンティティリンキングの課題に取り組む。ジオエンティティリンキングとは、ロケーション参照をその実際の地理的位置にリンクする作業である。
まず、ユーザー入力の位置情報を表す平均埋め込みを使ってリアルワールドの位置を表現する手法(UserGeo)を提案する。この手法は、コサイン類似度のしきい値を使って選択的な予測を可能にする。
次に、提案手法の複数のバリエーションをグローバルかつ多言語のデータセットで評価し、すべてのバリエーションが主要なベースラインを上回ることを示す。
さらに、手動アノテーション実験を通して、データセットに対する正解率の上限を概算し、提案手法が国レベルと行政レベルでは上限に近いが、市レベルではかなり下回ることを示す。市レベルでのジオエンティティリンキングには課題があることを議論する。
Stats
ユーザー入力の位置情報が正しい位置と100km以内の割合は70%である。
ユーザーのLocation フィールドに記載された位置情報と実際の位置が一致しない割合は40%である。
Quotes
"ジオエンティティリンキングは、ロケーション参照を実際の地理的位置にリンクする課題である。"
"ノイズの多い、多言語のソーシャルメディアデータからユーザーの地理的位置を正確に特定することが重要になってきている。"
"ユーザーのLocation フィールドに記載された位置情報は、しばしば実際の位置と一致しない。"