toplogo
Sign In

Effiziente Konsolidierung von Firmennamen in Patentanmeldungen mithilfe des Terrorizer-Algorithmus


Core Concepts
Der Terrorizer-Algorithmus ist ein neuartiger textbasierter Algorithmus, der natürliche Sprachverarbeitung, Netzwerktheorie und regelbasierte Techniken nutzt, um Varianten von Firmennamen, die als Patentanmelder registriert sind, zu harmonisieren.
Abstract
Der Artikel beschreibt den Terrorizer-Algorithmus, ein neuartiges Verfahren zur effizienten Harmonisierung von Firmennamen in Patentanmeldungen. Der Algorithmus besteht aus drei Hauptphasen: Parsing-Phase: In dieser Phase wird zusätzliche Information zu den Firmennamen gesammelt, indem ein Web-Crawler Informationen aus Suchmaschinen extrahiert. Anschließend werden die Namen bereinigt und standardisiert. Matching-Phase: Hier wird für jedes Paar von Namen ein Ähnlichkeitsscore berechnet. Dieser Score basiert auf verschiedenen Kriterien wie gemeinsame Tokens, gemeinsame Domains und Ähnlichkeit der Texte. Filtering-Phase: In dieser Phase werden die Firmennamen mithilfe von Netzwerktheorie in Gemeinschaften (Communities) gruppiert. Anschließend wird für jede Community der repräsentative Firmenname ausgewählt. Der Algorithmus wurde auf einem Datensatz von 325.917 Patentanmeldern getestet und konnte die Zahl der eindeutigen Namen um 42% reduzieren. Der Vergleich mit anderen Ansätzen zeigt, dass Terrorizer eine höhere Leistung in Bezug auf den F1-Score erzielt.
Stats
"Die Zahl der eindeutigen Patentanmelder wurde von 325.917 auf 188.445 reduziert, was einer Verringerung von rund 42% entspricht." "Der Terrorizer-Algorithmus erzielt einen höheren F1-Score als der bisher verwendete Algorithmus von PatentsView."
Quotes
"Der Terrorizer-Algorithmus ist ein neuartiger textbasierter Algorithmus, der natürliche Sprachverarbeitung, Netzwerktheorie und regelbasierte Techniken nutzt, um Varianten von Firmennamen, die als Patentanmelder registriert sind, zu harmonisieren." "Der Algorithmus wurde auf einem Datensatz von 325.917 Patentanmeldern getestet und konnte die Zahl der eindeutigen Namen um 42% reduzieren."

Key Insights Distilled From

by Grazia Sveva... at arxiv.org 03-20-2024

https://arxiv.org/pdf/2403.12083.pdf
Presenting Terrorizer

Deeper Inquiries

Wie könnte der Terrorizer-Algorithmus noch weiter verbessert werden, um eine noch höhere Leistung zu erzielen?

Um die Leistung des Terrorizer-Algorithmus weiter zu verbessern und eine noch höhere Genauigkeit zu erreichen, könnten folgende Maßnahmen ergriffen werden: Optimierung der Hyperparameter: Durch eine feinere Abstimmung der Hyperparameter des Algorithmus könnte die Leistung weiter optimiert werden. Dies könnte durch erneute Anwendung von Hyperparameter-Optimierungstechniken wie dem Tree-structured Parzen Estimator (TPE) erfolgen. Integration von Deep Learning: Die Integration von Deep Learning-Techniken, insbesondere von neuronalen Netzwerken, könnte die Fähigkeit des Algorithmus verbessern, komplexe Muster in den Firmennamen zu erkennen und präzisere Zuordnungen vorzunehmen. Erweiterung der Wissensbasis: Eine kontinuierliche Aktualisierung und Erweiterung der Wissensbasis des Algorithmus durch regelmäßiges Crawlen von neuen Datenquellen könnte dazu beitragen, die Qualität der Namensharmonisierung weiter zu verbessern. Berücksichtigung von Kontext: Die Einbeziehung von Kontextinformationen, wie beispielsweise Brancheninformationen oder geografische Daten, könnte dem Algorithmus helfen, präzisere Zuordnungen vorzunehmen und potenzielle Fehlerquellen zu reduzieren.

Welche Auswirkungen hätte eine unvollständige Harmonisierung von Firmennamen auf Studien zur Innovationstätigkeit von Unternehmen?

Eine unvollständige Harmonisierung von Firmennamen in Studien zur Innovationstätigkeit von Unternehmen könnte zu verzerrten Ergebnissen und falschen Schlussfolgerungen führen. Einige der Auswirkungen könnten sein: Unterschätzung der Innovationsaktivität: Wenn Firmennamen nicht korrekt harmonisiert werden, könnten Patente fälschlicherweise verschiedenen Unternehmen zugeordnet werden. Dies könnte dazu führen, dass die tatsächliche Innovationsaktivität eines Unternehmens unterschätzt wird. Verzerrte Netzwerkanalysen: Eine unvollständige Harmonisierung könnte zu falschen Schlussfolgerungen über die Beziehungen zwischen Unternehmen in Netzwerkanalysen führen. Dies könnte die Genauigkeit von Studien zur Technologiediffusion und Innovationsnetzwerken beeinträchtigen. Fehlende Identifizierung von Schlüsselakteuren: Eine unvollständige Harmonisierung könnte dazu führen, dass wichtige Akteure in der Innovationslandschaft nicht korrekt identifiziert werden. Dies könnte die Identifizierung von Schlüsselakteuren und -trends behindern.

Wie könnte der Terrorizer-Algorithmus auch für andere Anwendungsfälle, wie z.B. die Harmonisierung von Autorennamen, eingesetzt werden?

Der Terrorizer-Algorithmus könnte auch für die Harmonisierung von Autorennamen in wissenschaftlichen Publikationen oder anderen Textdaten verwendet werden. Hier sind einige Möglichkeiten, wie der Algorithmus angepasst werden könnte: Textvorverarbeitung für Autorennamen: Ähnlich wie bei Firmennamen könnten Autorennamen durch Textvorverarbeitungsschritte wie Bereinigung von Schreibfehlern, Entfernung von Sonderzeichen und Normalisierung von Abkürzungen vorverarbeitet werden. Matching-Phase für Autorennamen: Der Algorithmus könnte so angepasst werden, dass er spezifische Merkmale von Autorennamen berücksichtigt, wie z.B. gemeinsame Koautoren, gemeinsame Publikationen oder institutionelle Zugehörigkeiten. Community Detection für Autorennamen: Ähnlich wie bei Firmennamen könnte der Algorithmus Community Detection-Techniken verwenden, um Gruppen von Autoren zu identifizieren, die möglicherweise denselben Autor repräsentieren. Durch Anpassung und Feinabstimmung des Terrorizer-Algorithmus könnte er erfolgreich auf die Harmonisierung von Autorennamen angewendet werden, um präzise und konsistente Zuordnungen in Textdaten zu ermöglichen.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star