本論文では、ノイズの多い多言語ユーザー入力に対するジオエンティティリンキングの課題に取り組む。ジオエンティティリンキングとは、ロケーション参照をその実際の地理的位置にリンクする作業である。
まず、ユーザー入力の位置情報を表す平均埋め込みを使ってリアルワールドの位置を表現する手法(UserGeo)を提案する。この手法は、コサイン類似度のしきい値を使って選択的な予測を可能にする。
次に、提案手法の複数のバリエーションをグローバルかつ多言語のデータセットで評価し、すべてのバリエーションが主要なベースラインを上回ることを示す。
さらに、手動アノテーション実験を通して、データセットに対する正解率の上限を概算し、提案手法が国レベルと行政レベルでは上限に近いが、市レベルではかなり下回ることを示す。市レベルでのジオエンティティリンキングには課題があることを議論する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問