Khái niệm cốt lõi
リンクトインのデータを活用することで、組織名の類似性に基づいて効率的にデータをリンクできる。
Tóm tắt
本論文では、リンクトインのオープンコラボレーション記録を活用して、組織データを効率的にリンクする方法を提案している。
- 組織データをリンクする際の課題は、共通の識別子やコベリエイトがないことである。従来の方法では、文字列の類似性に基づくファジー照合が用いられてきたが、その限界がある。
- 本研究では、リンクトインのデータを活用することで、この問題に取り組む。具体的には以下の3つのアプローチを提案している。
- 機械学習を用いて、組織名の潜在的な意味を捉えることで、より正確なリンクを行う。
- コミュニティ検出アルゴリズムを用いて、組織名とURLの関係性を活用する。
- 上記2つのアプローチを組み合わせた統合的なアプローチ。
- これらのアプローチを、ロビー活動データ、企業の資産と支出データ、YCombinatorデータとPPPデータの統合などの具体的な事例に適用し、従来の方法と比較して優れた性能を示している。
- リンクトインのデータを活用することで、組織データのリンクが効率的かつ正確に行えることが示された。
Thống kê
組織名と組織URLの関係性を示す確率は、組織名の組み合わせによって大きく異なる。
組織名と組織URLの関係性を示す確率は、組織名の組み合わせによって0.0から1.0の範囲にわたる。
Trích dẫn
"Even where two strings appear similar to humans, fuzzy matching often struggles because it fails to adapt to the informativeness of the character combinations."
"By leveraging information from the LinkedIn corpus regarding organizational name-to-name links, we incorporate trillions of name pair examples into various methods to enhance existing matching benchmarks and performance by explicitly maximizing match probabilities."