toplogo
Sign In

Terrorizer Algorithm for Company Name Disambiguation in Patents


Core Concepts
Terrorizer algorithm harmonizes company names in patents using NLP and network theory, reducing unique names by 42%.
Abstract
The disambiguation of company names in patents is crucial for accurate analysis. Labor-intensive methods like dictionaries or string matching are insufficient for large datasets. Terrorizer algorithm combines NLP, network theory, and rule-based techniques to harmonize company names. Three main phases: parsing with knowledge augmentation, matching with cosine similarity, and filtering using community detection. Validation on four datasets shows superior performance compared to existing algorithms.
Stats
"Our final result is a reduction in the initial set of names of over 42%." "The performance of Terrorizer is stable across different datasets." "It achieves a higher F1 score compared to the algorithm currently used in PatentsView."
Quotes
"The problem biases research outcomes as it mostly underestimates the number of patents attributed to companies." "An algorithm as such could provide significant benefit to the community of scholars working on patent data."

Key Insights Distilled From

by Grazia Sveva... at arxiv.org 03-20-2024

https://arxiv.org/pdf/2403.12083.pdf
Presenting Terrorizer

Deeper Inquiries

質問1

Terrorizerアルゴリズムは特許以外の分野にどのように適用できますか? Terrorizerアルゴリズムは、企業名や組織名のデータベースを処理する際にも有用です。例えば、マーケティング分野では異なる表記や略語が使用されることがありますが、Terrorizerはこれらのバリエーションを正確に識別し、同じ実体を一意に決定するために活用できます。さらに、金融業界では会社名や取引先情報の整合性を確保するためにも利用可能です。また、医療分野では患者データや医療機関名などの整合性向上に役立つ可能性があります。

質問2

Terrorizerアルゴリズムを実世界の特許データベースで実装する際に生じる可能性がある課題は何ですか? Terrorizerアルゴリズムを特許データベースで実装する際の主な課題は以下の通りです。 データ品質:特許データベース内で多くの異なる表記法や名称変更が存在し、それらすべてを正確かつ効率的に処理する必要があります。 スケーラビリティ:大規模なデータセットへの適用時、計算量や処理時間が増加しパフォーマンス面で課題となる可能性があります。 エラー修正:間違った対応付け(false positives)や見逃し(false negatives)を最小限化しつつ精度高く解決していく必要があります。

質問3

NLPおよびネットワーク理論の進歩はTerrorizerアルゴリズムの能力向上方法としてどう役立ち得るでしょうか? NLPおよびネットワーク理論技術はTerrorizerアルゴリズムをさらに強化・拡張するため以下の点で貢献します。 NLP技術:自然言語処理技術を活用して文書内から意味的関連性ある情報抽出・比較・整形等行い不明瞭部分解消及び精度向上促進します。 ネットワーク理論:グラフ構造解析手法導入して各種エッジ重み付与・コスト最小化戦略展開等行い全体的システマチック改善施策推進します。 以上
0