מושגי ליבה
Wikipedia Hyperlinkを使用して、大規模なジオパーシングコーパスを自動的に構築する方法を提案。
תקציר
ジオパーシングはテキスト内の場所表現の緯度と経度(座標)を推定するタスク。
WHLLはWikipediaハイパーリンクを活用して複数の場所表現に座標を割り当てる新しい方法。
WHLLコーパスは1.3M記事で構成され、各記事に約7.8個の一意な場所表現が含まれる。
45.6%の場所表現が曖昧で、同じ記法で複数の場所を指す。
実験結果では、場所表現の曖昧さを解消する余地があることが示されている。
導入
機械によるテキスト理解における空間情報認識は有望な方向性。
ジオパーシングはテキスト内の場所表現の緯度と経度を推定するタスク。
関連研究
地理的データベースGeoNamesを使用した地名解決手法や、LGLやWikToRなど既存コーパスへの言及。
WHLLコーパス
WHLLコーパスは1.3M記事と14.7M以上の場所表現から成り立つ。
45.6%が曖昧な表現であり、9.9%が最も頻出する座標ではない。
実験
GeoNamesを使用した実験では、依存関係ベース戦略が0.58という高い精度を達成。
סטטיסטיקה
WHLLコーパスは1.3M記事から成り立つ。
45.6%の場所表現が曖昧であり、9.9%が最も頻出しない座標に対応している。