toplogo
Entrar

特許類似性の埋め込みモデルの比較分析


Conceitos Básicos
特許類似性タスクにおけるSBERTアーキテクチャのドメイン適応が最高のパフォーマンスを発揮することを示す。
Resumo
この論文は、特許テキストにおける特許類似性に関する議論を豊かにしました。まず、事前学習された静的とコンテキスト依存の埋め込みがこの特定のタスクでどれだけ異なるパフォーマンスを発揮するかを分析し、新しいSOTAコンテキストモデル(Patent-SBERT-ub-adapt)を提案しました。次に、SBERTモデル間でどれが特許類似性タスクで最も優れたパフォーマンスを発揮するかを識別するために異なるアーキテクチャを比較しました。 Introduction 特許は所有者に他者が特許取得した発明の製造、使用、販売、販売提供、または輸入から除外する法的権利を提供します。 最近では、特許解析と自然言語処理(NLP)を結びつける研究が増加しています。 特許テキスト間の類似性はイノベーションエコシステム内のアクターのイノベーションパターンやダイナミクスをマッピング・理解・予測するための重要な手段です。 Related work パテント分析用単語埋め込み作成への最近の貢献や多ラベル分類課題と特許類似性計算と組み合わせたアプローチなどが紹介されています。 Data 2つのデータセットが作成されました:SBERT派生モデル用トリプレットデータセットと検証用特許干渉データセット。 データ収集元はPatents Viewであり、それぞれ必要な情報(CPCクラス割り当て情報、出願日情報、抽象情報)からトリプレットや干渉ペアが生成されました。 Models and experiments 静的またはコンテキスト依存埋め込みがこの特定タスクでどちらが優れているか評価されました。 SBERTアーキテクチャから派生した3つの異なるモデル間で比較実験が行われました。 Analysis 5つの異なるモデル間で比較実験が行われ、SBERTアーキテクチャだけでも結果が報告されました。
Estatísticas
"Patent SBERT ub adapt" ドメイン適応SBERTアーキテクチャは52%で最高値, 40%で最低値. "Patent SBERT ub" SBERT ubは32%で最高値, 26%で最低値. "Word2vec TF-IDF" Word2vec TF-IDFは11%で最高値, 15%で最低値. "Doc2vec" Doc2vecは4%で最高値, 6%で最低値. "Patent SBERTa" Patent SBERTaは1%で最高値, 13%で最低値.
Citações

Principais Insights Extraídos De

by Grazia Sveva... às arxiv.org 03-26-2024

https://arxiv.org/pdf/2403.16630.pdf
A comparative analysis of embedding models for patent similarity

Perguntas Mais Profundas

今後この研究結果から得られた知見を活用して他分野へ展開する可能性は?

この研究では、特許の類似性計算において静的埋め込みとコンテキスト依存埋め込みモデルの比較を行いました。これらの結果は自然言語処理や情報検索などの分野にも応用できる可能性があります。例えば、特許以外の文書間の類似性評価や専門用語を含むテキストデータ解析などにおいて、異なる種類の埋め込みモデルがどのように適用されるかを検討することができます。さらに、特許技術だけでなく一般的な文章やドキュメントに対しても同様のアプローチを取り入れることで、情報抽出や自動要約など多岐にわたるNLPタスクへ展開する可能性も考えられます。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star