toplogo
Sign In

Eine vergleichende Analyse von Embedding-Modellen zur Patentähnlichkeit


Core Concepts
Diese Studie vergleicht die Leistung verschiedener patentspezifischer Embedding-Modelle, einschließlich statischer und kontextueller Worteinbettungen, bei der Berechnung der Patentähnlichkeit. Die Ergebnisse zeigen, dass das domänenadaptierte Sentence Transformer-Modell (Patent SBERT-adapt-ub) die beste Leistung erbringt, aber auch, dass die Leistung großer statischer Modelle mit umfangreicher Trainingsphase vergleichbar sein kann.
Abstract
Diese Studie untersucht zwei Hauptaspekte der Patentähnlichkeitsberechnung: Vergleich der Leistung verschiedener patentspezifischer Embedding-Modelle, sowohl statischer als auch kontextueller Worteinbettungen, bei der Berechnung der Patentähnlichkeit. Vergleich der Leistung verschiedener Sentence Transformer-Modelle (SBERT) für die Patentähnlichkeitsberechnung. Für die Bewertung der Modellleistung wird ein Datensatz zu Patentinterferenzen verwendet, bei denen zwei oder mehr unabhängige Parteien die gleiche Erfindung eingereicht haben. Diese Interferenzfälle dienen als Referenz für maximale Ähnlichkeit zwischen Patenten. Die Ergebnisse zeigen, dass das domänenadaptierte Sentence Transformer-Modell (Patent SBERT-adapt-ub) die beste Leistung erbringt. Allerdings sind die Ergebnisse großer statischer Modelle wie das Word2vec-Modell von Hain et al. (2022) mit umfangreicher Trainingsphase vergleichbar mit den kontextuellen Modellen. Dies deutet darauf hin, dass die Überlegenheit kontextueller Einbettungen möglicherweise nicht auf der eigentlichen Architektur, sondern eher auf der Art und Weise der Trainingsphase beruht. Beim Vergleich der SBERT-Modelle zeigt sich, dass die vorgeschlagene Domänenadaption, die mit annotierten Trainingsdaten arbeitet, die beste Leistung erbringt.
Stats
"Eine Methode zur Herstellung von Citalopram, bei der der Aldehyd der Formel 16 in die entsprechende 5-Cyano-Verbindung der Formel (i) 17 umgewandelt wird, die dann alkyliert wird, um Citalopram zu bilden, das in Form der Base oder eines Säureadditionssalzes isoliert wird." "Ein Antikörper, der an den Maus-Flt-3-Liganden bindet, wobei der Maus-Flt-3-Ligand die Aminosäuren 28-163 umfasst." "Eine Glastür für einen gekühlten Ausstellungsschrank, wobei die Tür Folgendes umfasst: ein erstes Glasfeld mit einer Innen- und einer Außenfläche, eine Niedrigemissionsschicht auf der Innenfläche des ersten Glasfelds, ein zweites Glasfeld mit einer Innen- und einer Außenfläche, eine Niedrigemissionsschicht auf der Innenfläche des zweiten Glasfelds, ein Zwischenglas zwischen dem ersten und zweiten Glasfeld, eine erste Abstandhalteranordnung zwischen dem ersten und dem Zwischenglas und eine zweite Abstandhalteranordnung zwischen dem Zwischen- und dem zweiten Glas, wobei die erste und zweite Abstandhalteranordnung aus Warmkantabstandhaltern gebildet sind, und einen Rahmen, der mindestens eines der Glasfelder umgibt und stützt."
Quotes
"Patentähnlichkeit unter Verwendung von Patenttext-Attributen begann mit einfachen und geraden Schlüsselwort-basierten Ansätzen, die Co-Occurrence oder einige gewichtete Versionen davon wie Pointwise Mutual Information (PMI) oder N-Gramme verwendeten." "In den letzten fünf Jahren hat die Zahl der Studien zur Informationssuche unter Verwendung von Patenttext einen steilen Anstieg erlebt und verschiedene NLP-Aufgaben abgedeckt, wie z.B. die Erkennung von Namenseinheiten, die technologische Klassifizierung und die Berechnung der Textähnlichkeit."

Key Insights Distilled From

by Grazia Sveva... at arxiv.org 03-26-2024

https://arxiv.org/pdf/2403.16630.pdf
A comparative analysis of embedding models for patent similarity

Deeper Inquiries

Wie könnte man den Trainingsprozess der Embedding-Modelle weiter verbessern, um ihre Leistung bei der Patentähnlichkeitsberechnung zu steigern?

Um den Trainingsprozess der Embedding-Modelle zur Verbesserung der Leistung bei der Patentähnlichkeitsberechnung zu optimieren, könnten folgende Ansätze verfolgt werden: Verwendung von größeren und spezifischeren Datensätzen: Durch die Nutzung von umfangreicheren und spezifischeren Datensätzen, die sich auf Patente und deren Ähnlichkeiten konzentrieren, können die Modelle besser auf die spezifischen Anforderungen des Tasks trainiert werden. Feinabstimmung der Hyperparameter: Eine sorgfältige Anpassung der Hyperparameter während des Trainingsprozesses kann dazu beitragen, die Leistung der Modelle zu verbessern. Dies umfasst die Optimierung von Lernraten, Batch-Größen und anderen Parametern. Berücksichtigung von mehr Kontext: Durch die Einbeziehung von zusätzlichen Kontextinformationen, wie z.B. Metadaten zu den Patenten oder Informationen über die Patentanmelder, kann die Modellleistung weiter verbessert werden. Ensemble-Learning: Die Kombination mehrerer Embedding-Modelle oder anderer NLP-Techniken durch Ensemble-Learning kann zu einer verbesserten Leistung führen, indem die Stärken verschiedener Modelle genutzt werden. Regelmäßige Evaluierung und Anpassung: Es ist wichtig, den Trainingsprozess regelmäßig zu überprüfen, die Modelle zu evaluieren und bei Bedarf anzupassen, um sicherzustellen, dass sie weiterhin optimale Leistungen bei der Patentähnlichkeitsberechnung erbringen.

Welche anderen Faktoren, neben der Textähnlichkeit, könnten bei der Bewertung der Patentähnlichkeit berücksichtigt werden?

Neben der Textähnlichkeit könnten bei der Bewertung der Patentähnlichkeit auch folgende Faktoren berücksichtigt werden: Technologische Ähnlichkeit: Die Ähnlichkeit der technologischen Aspekte, die in den Patenten beschrieben werden, ist ein wichtiger Faktor. Dies umfasst die Art der Innovation, die technischen Details und die Anwendbarkeit der Patente. Inventoren und Unternehmen: Die Verbindung zwischen den Inventoren oder Unternehmen, die die Patente anmelden, kann ebenfalls ein Indikator für die Ähnlichkeit der Patente sein. Gemeinsame Erfinder oder Anmelder könnten auf eine gewisse Ähnlichkeit in den Innovationen hinweisen. Zitationsmuster: Die Art und Weise, wie Patente untereinander zitiert werden, kann Aufschluss über ihre Ähnlichkeit geben. Patente, die häufig zusammen zitiert werden, könnten inhaltlich ähnlicher sein. Technologische Klassifikation: Die Klassifikation der Patente nach technologischen Kategorien, wie z.B. dem CPC-Code, kann bei der Bewertung der Ähnlichkeit hilfreich sein. Patente, die in ähnlichen Kategorien eingestuft sind, könnten tendenziell ähnlicher sein. Zeitlicher Kontext: Der zeitliche Rahmen, in dem Patente angemeldet wurden, kann ebenfalls ein wichtiger Faktor sein. Ähnliche Patente, die in einem ähnlichen Zeitraum angemeldet wurden, könnten auf ähnliche technologische Trends oder Entwicklungen hinweisen.

Wie lassen sich die Erkenntnisse aus dieser Studie auf andere Anwendungsfelder übertragen, in denen Textähnlichkeit eine wichtige Rolle spielt?

Die Erkenntnisse aus dieser Studie zur Bewertung der Patentähnlichkeit können auf andere Anwendungsfelder übertragen werden, in denen Textähnlichkeit eine wichtige Rolle spielt, wie z.B.: Information Retrieval: In Bereichen wie Information Retrieval und Dokumentenvergleich können ähnliche Modelle und Techniken verwendet werden, um die Ähnlichkeit zwischen Textdokumenten zu bewerten und relevante Informationen zu extrahieren. Plagiaterkennung: Bei der Plagiaterkennung in wissenschaftlichen Arbeiten oder anderen Texten können ähnliche Embedding-Modelle eingesetzt werden, um Textähnlichkeiten zu identifizieren und potenzielle Plagiate aufzudecken. Automatisierte Übersetzung: In der maschinellen Übersetzung können ähnliche Modelle zur Bewertung der Ähnlichkeit zwischen Texten in verschiedenen Sprachen verwendet werden, um die Qualität und Genauigkeit von Übersetzungen zu verbessern. Textklassifizierung: Bei der Textklassifizierung und Sentimentanalyse können Embedding-Modelle dazu beitragen, die Ähnlichkeit zwischen Texten zu bewerten und Texte entsprechend ihrer Klassifizierung zu gruppieren. Durch die Anwendung ähnlicher Ansätze und Techniken aus der Patentähnlichkeitsbewertung können in verschiedenen Anwendungsfeldern effektive Lösungen zur Textähnlichkeitsanalyse entwickelt werden.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star